Efecto de la configuración inicial de pesos en el entrenamiento y función de las redes neuronales artificiales

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Efecto de la configuración inicial de pesos en el entrenamiento y función de las redes neuronales artificiales

Autores: Jesus, Ricardo J.; Antunes, Mário L.; da Costa, Rui A.; Dorogovtsev, Sergey N.; Mendes, José F. F.; Aguiar, Rui L.

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Efecto de la configuración inicial de pesos en el entrenamiento y función de las redes neuronales artificiales

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Función

Rendimiento

Redes neuronales

Pesos

Sesgos

Entrenamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones

La función y el rendimiento de las redes neuronales están en gran medida determinados por la evolución de sus pesos y sesgos en el proceso de entrenamiento, desde la configuración inicial de estos parámetros hasta uno de los mínimos locales de la función de pérdida. Realizamos la caracterización estadística cuantitativa de la desviación de los pesos de redes ReLU feedforward de dos capas ocultas de varios tamaños entrenadas a través de Descenso de Gradiente Estocástico (SGD) desde su configuración aleatoria inicial. Comparamos la evolución de la función de distribución de esta desviación con la evolución de la pérdida durante el entrenamiento. Observamos que el entrenamiento exitoso a través de SGD deja a la red en el vecindario cercano de la configuración inicial de sus pesos. Para cada peso inicial de un enlace medimos la función de distribución de la desviación de este valor después del entrenamiento y encontramos cómo los momentos de esta distribución y su pico dependen del peso inicial. Exploramos la evolución de estas desviaciones durante el entrenamiento y observamos un aumento abrupto dentro de la región de sobreajuste. Este salto ocurre simultáneamente con un aumento igualmente abrupto registrado en la evolución de la función de pérdida. Nuestros resultados sugieren que la capacidad de SGD para encontrar eficientemente mínimos locales está restringida a la cercanía de la configuración inicial aleatoria de pesos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro