Asdg: descenso estocástico de gradiente con tamaño de lote adaptativo para cada parámetro

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Asdg: descenso estocástico de gradiente con tamaño de lote adaptativo para cada parámetro

Autores: Shi, Haoze; Yang, Naisen; Tang, Hong; Yang, Xin

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Asdg: descenso estocástico de gradiente con tamaño de lote adaptativo para cada parámetro

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Redes neuronales profundas

Entrenamiento

Optimizadores

Hiperparámetros

Descenso de gradiente estocástico

Función de activación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones

En los últimos años, las redes neuronales profundas (DNN) se han utilizado ampliamente en muchos campos. Se ha dedicado mucho esfuerzo al entrenamiento debido a sus numerosos parámetros en una red profunda. Se han utilizado optimizadores complejos con muchos hiperparámetros para acelerar el proceso de entrenamiento de la red y mejorar su capacidad de generalización. A menudo es un proceso de prueba y error ajustar estos hiperparámetros en un optimizador complejo. En este documento, analizamos los diferentes roles de las muestras de entrenamiento en una actualización de parámetros, visualmente, y encontramos que una muestra de entrenamiento contribuye de manera diferente a la actualización de parámetros. Además, presentamos una variante del descenso de gradiente estocástico por lotes para una red neuronal utilizando ReLU como función de activación en las capas ocultas, llamada descenso de gradiente estocástico adaptativo (aSGD). A diferencia de los métodos existentes, calcula el tamaño de lote adaptativo para cada parámetro en el modelo y utiliza el gradiente efectivo medio como el gradiente real para las actualizaciones de parámetros. Los resultados experimentales sobre MNIST muestran que aSGD puede acelerar el proceso de optimización de DNN y lograr una mayor precisión sin hiperparámetros adicionales. Los resultados experimentales sobre conjuntos de datos sintéticos muestran que puede encontrar nodos redundantes de manera efectiva, lo cual es útil para la compresión del modelo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro