Efectos de la no linealidad y la arquitectura de red en el rendimiento de redes neuronales supervisadas
Autores: Kulathunga, Nalinda; Ranasinghe, Nishath Rajiv; Vrinceanu, Daniel; Kinsman, Zackary; Huang, Lei; Wang, Yunjiao
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Efectos de la no linealidad y la arquitectura de red en el rendimiento de redes neuronales supervisadas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
No linealidad
Funciones de activación
ReLU
L-ReLU
Redes neuronales
Entropía
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
La no linealidad de las funciones de activación utilizadas en modelos de aprendizaje profundo es crucial para el éxito de los modelos predictivos. Varios funciones no lineales simples, incluyendo la Unidad Lineal Rectificada (ReLU) y la Leaky-ReLU (L-ReLU), son comúnmente utilizadas en redes neuronales para imponer la no linealidad. En la práctica, estas funciones mejoran notablemente la precisión del modelo. Sin embargo, hay una comprensión limitada sobre los efectos de la no linealidad en las redes neuronales en su rendimiento. Aquí, investigamos el rendimiento de los modelos de redes neuronales como función de la no linealidad utilizando las funciones de activación ReLU y L-ReLU en el contexto de diferentes arquitecturas de modelos y dominios de datos. Utilizamos la entropía como una medida de la aleatoriedad, para cuantificar los efectos de la no linealidad en diferentes formas de arquitectura en el rendimiento de las redes neuronales. Mostramos que la no linealidad ReLU es una mejor elección para la función de activación principalmente cuando la red tiene un número suficiente de parámetros. Sin embargo, encontramos que los modelos de clasificación de imágenes con aprendizaje por transferencia parecen funcionar bien con L-ReLU en capas completamente conectadas. Mostramos que la entropía de las salidas de la capa oculta en las redes neuronales puede representar de manera justa las fluctuaciones en la pérdida de información como función de la no linealidad. Además, investigamos el perfil de entropía de las redes neuronales poco profundas como una forma de representar la dinámica de sus capas ocultas.
Descripción
La no linealidad de las funciones de activación utilizadas en modelos de aprendizaje profundo es crucial para el éxito de los modelos predictivos. Varios funciones no lineales simples, incluyendo la Unidad Lineal Rectificada (ReLU) y la Leaky-ReLU (L-ReLU), son comúnmente utilizadas en redes neuronales para imponer la no linealidad. En la práctica, estas funciones mejoran notablemente la precisión del modelo. Sin embargo, hay una comprensión limitada sobre los efectos de la no linealidad en las redes neuronales en su rendimiento. Aquí, investigamos el rendimiento de los modelos de redes neuronales como función de la no linealidad utilizando las funciones de activación ReLU y L-ReLU en el contexto de diferentes arquitecturas de modelos y dominios de datos. Utilizamos la entropía como una medida de la aleatoriedad, para cuantificar los efectos de la no linealidad en diferentes formas de arquitectura en el rendimiento de las redes neuronales. Mostramos que la no linealidad ReLU es una mejor elección para la función de activación principalmente cuando la red tiene un número suficiente de parámetros. Sin embargo, encontramos que los modelos de clasificación de imágenes con aprendizaje por transferencia parecen funcionar bien con L-ReLU en capas completamente conectadas. Mostramos que la entropía de las salidas de la capa oculta en las redes neuronales puede representar de manera justa las fluctuaciones en la pérdida de información como función de la no linealidad. Además, investigamos el perfil de entropía de las redes neuronales poco profundas como una forma de representar la dinámica de sus capas ocultas.