Incorporando convexidad sin derivadas con diseños simples de trígono para la estimación de la tasa de aprendizaje del método de descenso de gradiente estocástico
Autores: Tokgoz, Emre; Musafer, Hassan; Faezipour, Miad; Mahmood, Ausif
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Incorporando convexidad sin derivadas con diseños simples de trígono para la estimación de la tasa de aprendizaje del método de descenso de gradiente estocástico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Propone
Teoría matemática
Adaptación
Convexidad
Funciones de pérdida
Método de convexidad condensada-discreta (CDC)
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
Este documento propone una novedosa teoría matemática de adaptación a la convexidad de funciones de pérdida basada en la definición del método de convexidad condensada-discreta (CDC). La teoría desarrollada se considera de un valor inmenso para entornos estocásticos y se utiliza para desarrollar el conocido método de descenso de gradiente estocástico (SGD). La exitosa contribución del cambio de la definición de convexidad impacta la exploración del programador de tasa de aprendizaje utilizado en el método SGD y por lo tanto afecta la tasa de convergencia de la solución que se utiliza para medir la efectividad de las redes profundas. En nuestro desarrollo de metodología, el método de convexidad CDC y la tasa de aprendizaje están directamente relacionados entre sí a través del operador de diferencia. Además, hemos incorporado la teoría desarrollada de adaptación con diseños de simplex trigonométricos (TS) para explorar diferentes programaciones de tasa de aprendizaje para los parámetros de peso y sesgo dentro de la red. Los experimentos confirman que al utilizar la nueva definición de convexidad para explorar programaciones de tasa de aprendizaje, la optimización es más efectiva en la práctica y tiene un fuerte efecto en el entrenamiento de la red neuronal profunda.
Descripción
Este documento propone una novedosa teoría matemática de adaptación a la convexidad de funciones de pérdida basada en la definición del método de convexidad condensada-discreta (CDC). La teoría desarrollada se considera de un valor inmenso para entornos estocásticos y se utiliza para desarrollar el conocido método de descenso de gradiente estocástico (SGD). La exitosa contribución del cambio de la definición de convexidad impacta la exploración del programador de tasa de aprendizaje utilizado en el método SGD y por lo tanto afecta la tasa de convergencia de la solución que se utiliza para medir la efectividad de las redes profundas. En nuestro desarrollo de metodología, el método de convexidad CDC y la tasa de aprendizaje están directamente relacionados entre sí a través del operador de diferencia. Además, hemos incorporado la teoría desarrollada de adaptación con diseños de simplex trigonométricos (TS) para explorar diferentes programaciones de tasa de aprendizaje para los parámetros de peso y sesgo dentro de la red. Los experimentos confirman que al utilizar la nueva definición de convexidad para explorar programaciones de tasa de aprendizaje, la optimización es más efectiva en la práctica y tiene un fuerte efecto en el entrenamiento de la red neuronal profunda.