Entrenamiento de redes neuronales mediante descenso de gradiente fraccional en el tiempo
Autores: Xie, Jingyi; Li, Sirui
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Entrenamiento de redes neuronales mediante descenso de gradiente fraccional en el tiempo
Categoría
Matemáticas
Subcategoría
Análisis matemático
Palabras clave
Método de promedio ponderado
Redes neuronales
Descenso de gradiente fraccional en el tiempo
Dependencia de memoria
Efecto de optimización
Conjunto de datos MNIST
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Motivado por el método de promedio ponderado para el entrenamiento de redes neuronales, estudiamos el método de descenso de gradiente fraccional en el tiempo (TFGD) basado en el flujo de gradiente fraccional en el tiempo y exploramos la influencia de la dependencia de la memoria en el entrenamiento de redes neuronales. El algoritmo TFGD en este documento se estudia a través de derivaciones teóricas y experimentos de entrenamiento de redes neuronales. En comparación con el algoritmo común de descenso de gradiente (GD), el efecto de optimización del algoritmo de descenso de gradiente fraccional en el tiempo es significativo cuando el valor de la fracción está cerca de 1, bajo la condición de una tasa de aprendizaje apropiada. La comparación se extiende a experimentos en el conjunto de datos MNIST con varias tasas de aprendizaje. Se verifica que el TFGD tiene ventajas potenciales cuando la fracción está cerca de 0.95-0.99. Esto sugiere que la dependencia de la memoria puede mejorar el rendimiento de entrenamiento de las redes neuronales.
Descripción
Motivado por el método de promedio ponderado para el entrenamiento de redes neuronales, estudiamos el método de descenso de gradiente fraccional en el tiempo (TFGD) basado en el flujo de gradiente fraccional en el tiempo y exploramos la influencia de la dependencia de la memoria en el entrenamiento de redes neuronales. El algoritmo TFGD en este documento se estudia a través de derivaciones teóricas y experimentos de entrenamiento de redes neuronales. En comparación con el algoritmo común de descenso de gradiente (GD), el efecto de optimización del algoritmo de descenso de gradiente fraccional en el tiempo es significativo cuando el valor de la fracción está cerca de 1, bajo la condición de una tasa de aprendizaje apropiada. La comparación se extiende a experimentos en el conjunto de datos MNIST con varias tasas de aprendizaje. Se verifica que el TFGD tiene ventajas potenciales cuando la fracción está cerca de 0.95-0.99. Esto sugiere que la dependencia de la memoria puede mejorar el rendimiento de entrenamiento de las redes neuronales.