Algoritmo adaptativo Levenberg-Marquardt: una nueva estrategia de optimización para redes neuronales Levenberg-Marquardt
Autores: Yan, Zhiqi; Zhong, Shisheng; Lin, Lin; Cui, Zhiquan
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Algoritmo adaptativo Levenberg-Marquardt: una nueva estrategia de optimización para redes neuronales Levenberg-Marquardt
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Datos de ingeniería
Algoritmo de Levenberg-Marquardt
Red neuronal
Funciones de activación
Algoritmo LM adaptativo
Convergencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Los datos de ingeniería suelen ser altamente no lineales y contienen ruido de alta frecuencia, por lo que el algoritmo de Levenberg-Marquardt (LM) puede no converger cuando una red neuronal optimizada por el algoritmo se entrena con datos de ingeniería. En este trabajo, analizamos las razones de la convergencia deficiente de la red neuronal LM comúnmente asociada con el algoritmo LM. Específicamente, se evaluaron los efectos de diferentes funciones de activación como Sigmoid, Tanh, Rectified Linear Unit (RELU) y Parametric Rectified Linear Unit (PRLU) en el rendimiento general de las redes neuronales LM, y se encontraron valores especiales de parámetros de la red neuronal LM que podrían hacer que el algoritmo LM converja pobremente. Propusimos un algoritmo LM adaptativo (AdaLM) para resolver el problema del algoritmo LM. El algoritmo coordina la dirección de descenso y el paso de descenso por el número de iteración, lo que puede prevenir caer en el valor mínimo local y evitar la influencia del estado de los parámetros de las redes neuronales LM. Comparamos el algoritmo AdaLM con el algoritmo LM tradicional y sus variantes en términos de precisión y velocidad en el contexto de pruebas de conjuntos de datos comunes y datos de aero-motores, y los resultados verificaron la efectividad del algoritmo AdaLM.
Descripción
Los datos de ingeniería suelen ser altamente no lineales y contienen ruido de alta frecuencia, por lo que el algoritmo de Levenberg-Marquardt (LM) puede no converger cuando una red neuronal optimizada por el algoritmo se entrena con datos de ingeniería. En este trabajo, analizamos las razones de la convergencia deficiente de la red neuronal LM comúnmente asociada con el algoritmo LM. Específicamente, se evaluaron los efectos de diferentes funciones de activación como Sigmoid, Tanh, Rectified Linear Unit (RELU) y Parametric Rectified Linear Unit (PRLU) en el rendimiento general de las redes neuronales LM, y se encontraron valores especiales de parámetros de la red neuronal LM que podrían hacer que el algoritmo LM converja pobremente. Propusimos un algoritmo LM adaptativo (AdaLM) para resolver el problema del algoritmo LM. El algoritmo coordina la dirección de descenso y el paso de descenso por el número de iteración, lo que puede prevenir caer en el valor mínimo local y evitar la influencia del estado de los parámetros de las redes neuronales LM. Comparamos el algoritmo AdaLM con el algoritmo LM tradicional y sus variantes en términos de precisión y velocidad en el contexto de pruebas de conjuntos de datos comunes y datos de aero-motores, y los resultados verificaron la efectividad del algoritmo AdaLM.