Sobre la Función de Activación Universalmente Óptima para una Clase de Redes Neuronales Residuales
Autores: Zhao, Feng; Huang, Shao-Lun
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Sobre la Función de Activación Universalmente Óptima para una Clase de Redes Neuronales Residuales
Categoría
Matemáticas
Subcategoría
Matemáticas aplicadas
Palabras clave
Funciones de activación no lineales
Redes neuronales artificiales
Aproximaciones de funciones
ResNets
Aumento de rendimiento
Polinomios de Hermite
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
Mientras que las funciones de activación no lineales juegan roles vitales en las redes neuronales artificiales, generalmente no está claro cómo la no linealidad puede mejorar la calidad de las aproximaciones de funciones. En este artículo, presentamos un marco teórico para analizar rigurosamente la ganancia de rendimiento al usar funciones de activación no lineales para una clase de redes neuronales residuales (ResNets). En particular, mostramos que cuando las características de entrada para el ResNet se eligen uniformemente y son ortogonales entre sí, el uso de funciones de activación no lineales para generar la salida del ResNet supera en promedio al uso de funciones de activación lineales, y la ganancia de rendimiento se puede calcular explícitamente. Además, mostramos que cuando las funciones de activación se eligen como polinomios con un grado mucho menor que la dimensión de las características de entrada, las funciones de activación óptimas se pueden expresar con precisión en forma de polinomios de Hermite. Esto demuestra el papel de los polinomios de Hermite en las aproximaciones de funciones de los ResNets.
Descripción
Mientras que las funciones de activación no lineales juegan roles vitales en las redes neuronales artificiales, generalmente no está claro cómo la no linealidad puede mejorar la calidad de las aproximaciones de funciones. En este artículo, presentamos un marco teórico para analizar rigurosamente la ganancia de rendimiento al usar funciones de activación no lineales para una clase de redes neuronales residuales (ResNets). En particular, mostramos que cuando las características de entrada para el ResNet se eligen uniformemente y son ortogonales entre sí, el uso de funciones de activación no lineales para generar la salida del ResNet supera en promedio al uso de funciones de activación lineales, y la ganancia de rendimiento se puede calcular explícitamente. Además, mostramos que cuando las funciones de activación se eligen como polinomios con un grado mucho menor que la dimensión de las características de entrada, las funciones de activación óptimas se pueden expresar con precisión en forma de polinomios de Hermite. Esto demuestra el papel de los polinomios de Hermite en las aproximaciones de funciones de los ResNets.