Análisis del paisaje de aptitud de redes neuronales de unidades de producto
Autores: Engelbrecht, Andries; Gouldie, Robert
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Análisis del paisaje de aptitud de redes neuronales de unidades de producto
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Análisis del paisaje de aptitud
Superficies de pérdida
Redes neuronales de unidades de producto
Unidades de suma
Algoritmos de optimización
Gradientes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Se realiza un análisis del paisaje de aptitud de las superficies de pérdida producidas por redes neuronales de unidades de producto para comprender mejor el impacto de las unidades de producto en las características de las superficies de pérdida. Luego se comparan las características de las superficies de pérdida de las redes neuronales de unidades de producto con las características de las superficies de pérdida producidas por redes neuronales que utilizan unidades de suma. La falla de ciertos algoritmos de optimización en el entrenamiento de redes neuronales de producto se explica a través de las tendencias observadas entre las características de las superficies de pérdida y el rendimiento del algoritmo de optimización. El documento muestra que las superficies de pérdida de las redes neuronales de unidades de producto tienen gradientes extremadamente grandes con muchos barrancos y valles profundos, lo que explica por qué los algoritmos de optimización basados en gradientes fallan al entrenar estas redes neuronales.
Descripción
Se realiza un análisis del paisaje de aptitud de las superficies de pérdida producidas por redes neuronales de unidades de producto para comprender mejor el impacto de las unidades de producto en las características de las superficies de pérdida. Luego se comparan las características de las superficies de pérdida de las redes neuronales de unidades de producto con las características de las superficies de pérdida producidas por redes neuronales que utilizan unidades de suma. La falla de ciertos algoritmos de optimización en el entrenamiento de redes neuronales de producto se explica a través de las tendencias observadas entre las características de las superficies de pérdida y el rendimiento del algoritmo de optimización. El documento muestra que las superficies de pérdida de las redes neuronales de unidades de producto tienen gradientes extremadamente grandes con muchos barrancos y valles profundos, lo que explica por qué los algoritmos de optimización basados en gradientes fallan al entrenar estas redes neuronales.