Acelerando el método quasi-Newton simétrico de rango-1 con el gradiente de Nesterov para entrenar redes neuronales
Autores: Indrapriyadarsini, S.; Mahboubi, Shahrzad; Ninomiya, Hiroshi; Kamio, Takeshi; Asai, Hideki
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Acelerando el método quasi-Newton simétrico de rango-1 con el gradiente de Nesterov para entrenar redes neuronales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Redes neuronales
Métodos de segundo orden
BFGS
Nesterov
SR1
Convergencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 59
Citaciones: Sin citaciones
Los métodos basados en gradientes son ampliamente utilizados en el entrenamiento de redes neuronales y pueden clasificarse en métodos de primer y segundo orden. Los métodos de segundo orden han demostrado tener una mejor convergencia en comparación con los métodos de primer orden, especialmente en la resolución de problemas altamente no lineales. El método cuasi-Newton BFGS es el método de segundo orden más estudiado comúnmente para el entrenamiento de redes neuronales. Métodos recientes han demostrado acelerar la convergencia del método BFGS utilizando el gradiente acelerado de Nesterov y términos de momento. Aunque el método cuasi-Newton SR1, menos comúnmente utilizado en el entrenamiento de redes neuronales, se sabe que tiene propiedades interesantes y proporciona buenas aproximaciones de Hessiano cuando se utiliza con un enfoque de región de confianza. Por lo tanto, este artículo tiene como objetivo investigar la aceleración del método cuasi-Newton de Rango Simétrico-1 (SR1) con el gradiente de Nesterov para el entrenamiento de redes neuronales, y discutir brevemente su convergencia. El rendimiento del método propuesto se evalúa en un problema de aproximación de funciones y clasificación de imágenes.
Descripción
Los métodos basados en gradientes son ampliamente utilizados en el entrenamiento de redes neuronales y pueden clasificarse en métodos de primer y segundo orden. Los métodos de segundo orden han demostrado tener una mejor convergencia en comparación con los métodos de primer orden, especialmente en la resolución de problemas altamente no lineales. El método cuasi-Newton BFGS es el método de segundo orden más estudiado comúnmente para el entrenamiento de redes neuronales. Métodos recientes han demostrado acelerar la convergencia del método BFGS utilizando el gradiente acelerado de Nesterov y términos de momento. Aunque el método cuasi-Newton SR1, menos comúnmente utilizado en el entrenamiento de redes neuronales, se sabe que tiene propiedades interesantes y proporciona buenas aproximaciones de Hessiano cuando se utiliza con un enfoque de región de confianza. Por lo tanto, este artículo tiene como objetivo investigar la aceleración del método cuasi-Newton de Rango Simétrico-1 (SR1) con el gradiente de Nesterov para el entrenamiento de redes neuronales, y discutir brevemente su convergencia. El rendimiento del método propuesto se evalúa en un problema de aproximación de funciones y clasificación de imágenes.