logo móvil
Contáctanos

Asdg: descenso estocástico de gradiente con tamaño de lote adaptativo para cada parámetro

Autores: Shi, Haoze; Yang, Naisen; Tang, Hong; Yang, Xin

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Asdg: descenso estocástico de gradiente con tamaño de lote adaptativo para cada parámetro


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Redes neuronales profundas
Entrenamiento
Optimizadores
Hiperparámetros
Descenso de gradiente estocástico
Función de activación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones


Descripción
En los últimos años, las redes neuronales profundas (DNN) se han utilizado ampliamente en muchos campos. Se ha dedicado mucho esfuerzo al entrenamiento debido a sus numerosos parámetros en una red profunda. Se han utilizado optimizadores complejos con muchos hiperparámetros para acelerar el proceso de entrenamiento de la red y mejorar su capacidad de generalización. A menudo es un proceso de prueba y error ajustar estos hiperparámetros en un optimizador complejo. En este documento, analizamos los diferentes roles de las muestras de entrenamiento en una actualización de parámetros, visualmente, y encontramos que una muestra de entrenamiento contribuye de manera diferente a la actualización de parámetros. Además, presentamos una variante del descenso de gradiente estocástico por lotes para una red neuronal utilizando ReLU como función de activación en las capas ocultas, llamada descenso de gradiente estocástico adaptativo (aSGD). A diferencia de los métodos existentes, calcula el tamaño de lote adaptativo para cada parámetro en el modelo y utiliza el gradiente efectivo medio como el gradiente real para las actualizaciones de parámetros. Los resultados experimentales sobre MNIST muestran que aSGD puede acelerar el proceso de optimización de DNN y lograr una mayor precisión sin hiperparámetros adicionales. Los resultados experimentales sobre conjuntos de datos sintéticos muestran que puede encontrar nodos redundantes de manera efectiva, lo cual es útil para la compresión del modelo.

Otros recursos que podrían interesarte

Temas Virtualpro