Un método para calcular la derivada de funciones de activación basado en una aproximación lineal por partes
Autores: Liao, Xuan; Zhou, Tong; Zhang, Longlong; Hu, Xiang; Peng, Yuanxi
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un método para calcular la derivada de funciones de activación basado en una aproximación lineal por partes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Funciones
Activación
Redes neuronales
Derivada
Eficiencia computacional
Amigable con hardware
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
Las funciones no lineales son ampliamente utilizadas como funciones de activación en redes neuronales artificiales, lo que tiene un gran impacto en la capacidad de ajuste de las redes neuronales artificiales. Debido a la complejidad de la función de activación, el cálculo de la función de activación y su derivada requiere muchos recursos informáticos y tiempo durante el entrenamiento. Con el fin de mejorar la eficiencia computacional de las derivadas de la función de activación en la retropropagación de redes neuronales artificiales, este artículo propone un método basado en el método de aproximación lineal por partes para calcular la derivada de la función de activación. Este método es amigable con el hardware y universal, puede calcular eficientemente varias funciones de activación no lineales en el campo de los aceleradores de hardware de redes neuronales. En este artículo, utilizamos mínimos cuadrados para mejorar un método de cálculo de aproximación lineal por partes que puede controlar el error absoluto y obtener un menor número de segmentos o un error promedio más pequeño, lo que significa que se requieren menos recursos de hardware. Utilizamos este método para realizar una aproximación lineal segmentada a la función original o derivada de la función de activación. Ambos tipos de funciones de activación se sustituyen en un perceptrón multicapa para experimentos de clasificación binaria para verificar la efectividad del método propuesto. Los resultados experimentales muestran que se puede lograr la misma o incluso una precisión de clasificación ligeramente mayor al usar este método, y el tiempo de cálculo de la retropropagación se reduce en un 4-6% en comparación con el cálculo directo de la derivada directamente desde la expresión de la función utilizando el operador encapsulado en PyTorch. Esto muestra que el método propuesto proporciona una solución eficiente de funciones de activación no lineales para la aceleración de hardware de redes neuronales.
Descripción
Las funciones no lineales son ampliamente utilizadas como funciones de activación en redes neuronales artificiales, lo que tiene un gran impacto en la capacidad de ajuste de las redes neuronales artificiales. Debido a la complejidad de la función de activación, el cálculo de la función de activación y su derivada requiere muchos recursos informáticos y tiempo durante el entrenamiento. Con el fin de mejorar la eficiencia computacional de las derivadas de la función de activación en la retropropagación de redes neuronales artificiales, este artículo propone un método basado en el método de aproximación lineal por partes para calcular la derivada de la función de activación. Este método es amigable con el hardware y universal, puede calcular eficientemente varias funciones de activación no lineales en el campo de los aceleradores de hardware de redes neuronales. En este artículo, utilizamos mínimos cuadrados para mejorar un método de cálculo de aproximación lineal por partes que puede controlar el error absoluto y obtener un menor número de segmentos o un error promedio más pequeño, lo que significa que se requieren menos recursos de hardware. Utilizamos este método para realizar una aproximación lineal segmentada a la función original o derivada de la función de activación. Ambos tipos de funciones de activación se sustituyen en un perceptrón multicapa para experimentos de clasificación binaria para verificar la efectividad del método propuesto. Los resultados experimentales muestran que se puede lograr la misma o incluso una precisión de clasificación ligeramente mayor al usar este método, y el tiempo de cálculo de la retropropagación se reduce en un 4-6% en comparación con el cálculo directo de la derivada directamente desde la expresión de la función utilizando el operador encapsulado en PyTorch. Esto muestra que el método propuesto proporciona una solución eficiente de funciones de activación no lineales para la aceleración de hardware de redes neuronales.