logo móvil
Contáctanos

Efecto de la configuración inicial de pesos en el entrenamiento y función de las redes neuronales artificiales

Autores: Jesus, Ricardo J.; Antunes, Mário L.; da Costa, Rui A.; Dorogovtsev, Sergey N.; Mendes, José F. F.; Aguiar, Rui L.

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Efecto de la configuración inicial de pesos en el entrenamiento y función de las redes neuronales artificiales


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Función
Rendimiento
Redes neuronales
Pesos
Sesgos
Entrenamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones


Descripción
La función y el rendimiento de las redes neuronales están en gran medida determinados por la evolución de sus pesos y sesgos en el proceso de entrenamiento, desde la configuración inicial de estos parámetros hasta uno de los mínimos locales de la función de pérdida. Realizamos la caracterización estadística cuantitativa de la desviación de los pesos de redes ReLU feedforward de dos capas ocultas de varios tamaños entrenadas a través de Descenso de Gradiente Estocástico (SGD) desde su configuración aleatoria inicial. Comparamos la evolución de la función de distribución de esta desviación con la evolución de la pérdida durante el entrenamiento. Observamos que el entrenamiento exitoso a través de SGD deja a la red en el vecindario cercano de la configuración inicial de sus pesos. Para cada peso inicial de un enlace medimos la función de distribución de la desviación de este valor después del entrenamiento y encontramos cómo los momentos de esta distribución y su pico dependen del peso inicial. Exploramos la evolución de estas desviaciones durante el entrenamiento y observamos un aumento abrupto dentro de la región de sobreajuste. Este salto ocurre simultáneamente con un aumento igualmente abrupto registrado en la evolución de la función de pérdida. Nuestros resultados sugieren que la capacidad de SGD para encontrar eficientemente mínimos locales está restringida a la cercanía de la configuración inicial aleatoria de pesos.

Otros recursos que podrían interesarte

Temas Virtualpro