Un estudio de problemas de aprendizaje en redes neuronales feedforward
Autores: Teso-Fz-Betoño, Adrian; Zulueta, Ekaitz; Cabezas-Olivenza, Mireya; Teso-Fz-Betoño, Daniel; Fernandez-Gamiz, Unai
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un estudio de problemas de aprendizaje en redes neuronales feedforward
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Feedforward
Descenso de gradiente estocástico
Red neuronal
Patrones
Capas de aprendizaje
Problemas de entrenamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Al entrenar una red neuronal alimentada hacia adelante con descenso de gradiente estocástico, existe la posibilidad de no aprender correctamente un lote de patrones, lo que provoca que la red falle en las predicciones en las áreas adyacentes a esos patrones. Este problema suele resolverse añadiendo directamente más complejidad a la red, normalmente aumentando el número de capas de aprendizaje, lo que significa que será más pesado de ejecutar en la estación de trabajo. En este documento, se analizan las propiedades y el efecto de los patrones en la red y se distinguen dos razones principales por las cuales los patrones no se aprenden correctamente: la desaparición del gradiente jacobiano en las capas de procesamiento de la red y la dirección opuesta del gradiente de esos patrones. Se ha realizado un experimento simplificado en una red neuronal simple y se han monitoreado los errores que aparecen durante y después del entrenamiento. Teniendo en cuenta los datos obtenidos, la hipótesis inicial de las causas parece ser correcta. Finalmente, se proponen algunas correcciones a la red con el objetivo de resolver esos problemas de entrenamiento y poder ofrecer una predicción suficientemente correcta, con el fin de aumentar la complejidad de la red lo menos posible.
Descripción
Al entrenar una red neuronal alimentada hacia adelante con descenso de gradiente estocástico, existe la posibilidad de no aprender correctamente un lote de patrones, lo que provoca que la red falle en las predicciones en las áreas adyacentes a esos patrones. Este problema suele resolverse añadiendo directamente más complejidad a la red, normalmente aumentando el número de capas de aprendizaje, lo que significa que será más pesado de ejecutar en la estación de trabajo. En este documento, se analizan las propiedades y el efecto de los patrones en la red y se distinguen dos razones principales por las cuales los patrones no se aprenden correctamente: la desaparición del gradiente jacobiano en las capas de procesamiento de la red y la dirección opuesta del gradiente de esos patrones. Se ha realizado un experimento simplificado en una red neuronal simple y se han monitoreado los errores que aparecen durante y después del entrenamiento. Teniendo en cuenta los datos obtenidos, la hipótesis inicial de las causas parece ser correcta. Finalmente, se proponen algunas correcciones a la red con el objetivo de resolver esos problemas de entrenamiento y poder ofrecer una predicción suficientemente correcta, con el fin de aumentar la complejidad de la red lo menos posible.