Asdg: descenso estocástico de gradiente con tamaño de lote adaptativo para cada parámetro
Autores: Shi, Haoze; Yang, Naisen; Tang, Hong; Yang, Xin
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Asdg: descenso estocástico de gradiente con tamaño de lote adaptativo para cada parámetro
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Redes neuronales profundas
Entrenamiento
Optimizadores
Hiperparámetros
Descenso de gradiente estocástico
Función de activación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
En los últimos años, las redes neuronales profundas (DNN) se han utilizado ampliamente en muchos campos. Se ha dedicado mucho esfuerzo al entrenamiento debido a sus numerosos parámetros en una red profunda. Se han utilizado optimizadores complejos con muchos hiperparámetros para acelerar el proceso de entrenamiento de la red y mejorar su capacidad de generalización. A menudo es un proceso de prueba y error ajustar estos hiperparámetros en un optimizador complejo. En este documento, analizamos los diferentes roles de las muestras de entrenamiento en una actualización de parámetros, visualmente, y encontramos que una muestra de entrenamiento contribuye de manera diferente a la actualización de parámetros. Además, presentamos una variante del descenso de gradiente estocástico por lotes para una red neuronal utilizando ReLU como función de activación en las capas ocultas, llamada descenso de gradiente estocástico adaptativo (aSGD). A diferencia de los métodos existentes, calcula el tamaño de lote adaptativo para cada parámetro en el modelo y utiliza el gradiente efectivo medio como el gradiente real para las actualizaciones de parámetros. Los resultados experimentales sobre MNIST muestran que aSGD puede acelerar el proceso de optimización de DNN y lograr una mayor precisión sin hiperparámetros adicionales. Los resultados experimentales sobre conjuntos de datos sintéticos muestran que puede encontrar nodos redundantes de manera efectiva, lo cual es útil para la compresión del modelo.
Descripción
En los últimos años, las redes neuronales profundas (DNN) se han utilizado ampliamente en muchos campos. Se ha dedicado mucho esfuerzo al entrenamiento debido a sus numerosos parámetros en una red profunda. Se han utilizado optimizadores complejos con muchos hiperparámetros para acelerar el proceso de entrenamiento de la red y mejorar su capacidad de generalización. A menudo es un proceso de prueba y error ajustar estos hiperparámetros en un optimizador complejo. En este documento, analizamos los diferentes roles de las muestras de entrenamiento en una actualización de parámetros, visualmente, y encontramos que una muestra de entrenamiento contribuye de manera diferente a la actualización de parámetros. Además, presentamos una variante del descenso de gradiente estocástico por lotes para una red neuronal utilizando ReLU como función de activación en las capas ocultas, llamada descenso de gradiente estocástico adaptativo (aSGD). A diferencia de los métodos existentes, calcula el tamaño de lote adaptativo para cada parámetro en el modelo y utiliza el gradiente efectivo medio como el gradiente real para las actualizaciones de parámetros. Los resultados experimentales sobre MNIST muestran que aSGD puede acelerar el proceso de optimización de DNN y lograr una mayor precisión sin hiperparámetros adicionales. Los resultados experimentales sobre conjuntos de datos sintéticos muestran que puede encontrar nodos redundantes de manera efectiva, lo cual es útil para la compresión del modelo.