Smish: una nueva función de activación para métodos de aprendizaje profundo
Autores: Wang, Xueliang; Ren, Honge; Wang, Achuan
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Smish: una nueva función de activación para métodos de aprendizaje profundo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Funciones de activación
Redes de aprendizaje profundo
Smish
Logish
Mish
Modelos EfficientNet
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Las funciones de activación son cruciales en las redes de aprendizaje profundo, dado que la capacidad no lineal de las funciones de activación dota a las redes neuronales profundas de inteligencia artificial real. Las funciones de activación no lineales no monótonas, como las unidades lineales rectificadas, la tangente hiperbólica (tanh), la sigmoide, Swish, Mish y Logish, funcionan bien en modelos de aprendizaje profundo; sin embargo, solo unas pocas de ellas se utilizan ampliamente en la mayoría de las aplicaciones debido a sus inconsistencias existentes. Inspirado en el método MB-C-BSIF, este estudio propone Smish, una nueva función de activación no lineal, expresada como , que podría superar a otras funciones de activación con buenas propiedades. Las operaciones logarítmicas se utilizan primero para reducir el rango de sigmoid(x). El valor se calcula luego utilizando el operador tanh. Los valores de entrada se utilizan finalmente para multiplicar el valor anterior, exhibiendo así una regularización de salida negativa. Los experimentos muestran que Smish tiende a funcionar de manera más eficiente que Logish, Mish y otras funciones de activación en modelos EfficientNet con conjuntos de datos abiertos. Además, evaluamos el rendimiento de Smish en varios modelos de aprendizaje profundo y los parámetros de su función , donde alfa = 1 y beta = 1, se encontró que Smish exhibe la mayor precisión. Los resultados experimentales muestran que con Smish, la red EfficientNetB3 tiene una precisión del Top-1 del 84.1% en el conjunto de datos CIFAR-10; la red EfficientNetB5 tiene una precisión del Top-1 del 99.89% en el conjunto de datos MNIST; y la red EfficientnetB7 tiene una precisión del Top-1 del 91.14% en el conjunto de datos SVHN. Estos valores son superiores a los obtenidos con otras funciones de activación de vanguardia, lo que muestra que Smish es más adecuado para modelos complejos de aprendizaje profundo.
Descripción
Las funciones de activación son cruciales en las redes de aprendizaje profundo, dado que la capacidad no lineal de las funciones de activación dota a las redes neuronales profundas de inteligencia artificial real. Las funciones de activación no lineales no monótonas, como las unidades lineales rectificadas, la tangente hiperbólica (tanh), la sigmoide, Swish, Mish y Logish, funcionan bien en modelos de aprendizaje profundo; sin embargo, solo unas pocas de ellas se utilizan ampliamente en la mayoría de las aplicaciones debido a sus inconsistencias existentes. Inspirado en el método MB-C-BSIF, este estudio propone Smish, una nueva función de activación no lineal, expresada como , que podría superar a otras funciones de activación con buenas propiedades. Las operaciones logarítmicas se utilizan primero para reducir el rango de sigmoid(x). El valor se calcula luego utilizando el operador tanh. Los valores de entrada se utilizan finalmente para multiplicar el valor anterior, exhibiendo así una regularización de salida negativa. Los experimentos muestran que Smish tiende a funcionar de manera más eficiente que Logish, Mish y otras funciones de activación en modelos EfficientNet con conjuntos de datos abiertos. Además, evaluamos el rendimiento de Smish en varios modelos de aprendizaje profundo y los parámetros de su función , donde alfa = 1 y beta = 1, se encontró que Smish exhibe la mayor precisión. Los resultados experimentales muestran que con Smish, la red EfficientNetB3 tiene una precisión del Top-1 del 84.1% en el conjunto de datos CIFAR-10; la red EfficientNetB5 tiene una precisión del Top-1 del 99.89% en el conjunto de datos MNIST; y la red EfficientnetB7 tiene una precisión del Top-1 del 91.14% en el conjunto de datos SVHN. Estos valores son superiores a los obtenidos con otras funciones de activación de vanguardia, lo que muestra que Smish es más adecuado para modelos complejos de aprendizaje profundo.