Efecto de la configuración inicial de pesos en el entrenamiento y función de las redes neuronales artificiales
Autores: Jesus, Ricardo J.; Antunes, Mário L.; da Costa, Rui A.; Dorogovtsev, Sergey N.; Mendes, José F. F.; Aguiar, Rui L.
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Efecto de la configuración inicial de pesos en el entrenamiento y función de las redes neuronales artificiales
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Función
Rendimiento
Redes neuronales
Pesos
Sesgos
Entrenamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
La función y el rendimiento de las redes neuronales están en gran medida determinados por la evolución de sus pesos y sesgos en el proceso de entrenamiento, desde la configuración inicial de estos parámetros hasta uno de los mínimos locales de la función de pérdida. Realizamos la caracterización estadística cuantitativa de la desviación de los pesos de redes ReLU feedforward de dos capas ocultas de varios tamaños entrenadas a través de Descenso de Gradiente Estocástico (SGD) desde su configuración aleatoria inicial. Comparamos la evolución de la función de distribución de esta desviación con la evolución de la pérdida durante el entrenamiento. Observamos que el entrenamiento exitoso a través de SGD deja a la red en el vecindario cercano de la configuración inicial de sus pesos. Para cada peso inicial de un enlace medimos la función de distribución de la desviación de este valor después del entrenamiento y encontramos cómo los momentos de esta distribución y su pico dependen del peso inicial. Exploramos la evolución de estas desviaciones durante el entrenamiento y observamos un aumento abrupto dentro de la región de sobreajuste. Este salto ocurre simultáneamente con un aumento igualmente abrupto registrado en la evolución de la función de pérdida. Nuestros resultados sugieren que la capacidad de SGD para encontrar eficientemente mínimos locales está restringida a la cercanía de la configuración inicial aleatoria de pesos.
Descripción
La función y el rendimiento de las redes neuronales están en gran medida determinados por la evolución de sus pesos y sesgos en el proceso de entrenamiento, desde la configuración inicial de estos parámetros hasta uno de los mínimos locales de la función de pérdida. Realizamos la caracterización estadística cuantitativa de la desviación de los pesos de redes ReLU feedforward de dos capas ocultas de varios tamaños entrenadas a través de Descenso de Gradiente Estocástico (SGD) desde su configuración aleatoria inicial. Comparamos la evolución de la función de distribución de esta desviación con la evolución de la pérdida durante el entrenamiento. Observamos que el entrenamiento exitoso a través de SGD deja a la red en el vecindario cercano de la configuración inicial de sus pesos. Para cada peso inicial de un enlace medimos la función de distribución de la desviación de este valor después del entrenamiento y encontramos cómo los momentos de esta distribución y su pico dependen del peso inicial. Exploramos la evolución de estas desviaciones durante el entrenamiento y observamos un aumento abrupto dentro de la región de sobreajuste. Este salto ocurre simultáneamente con un aumento igualmente abrupto registrado en la evolución de la función de pérdida. Nuestros resultados sugieren que la capacidad de SGD para encontrar eficientemente mínimos locales está restringida a la cercanía de la configuración inicial aleatoria de pesos.