logo móvil
Contáctanos

Un método para calcular la derivada de funciones de activación basado en una aproximación lineal por partes

Autores: Liao, Xuan; Zhou, Tong; Zhang, Longlong; Hu, Xiang; Peng, Yuanxi

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un método para calcular la derivada de funciones de activación basado en una aproximación lineal por partes


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Funciones
Activación
Redes neuronales
Derivada
Eficiencia computacional
Amigable con hardware

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones


Descripción
Las funciones no lineales son ampliamente utilizadas como funciones de activación en redes neuronales artificiales, lo que tiene un gran impacto en la capacidad de ajuste de las redes neuronales artificiales. Debido a la complejidad de la función de activación, el cálculo de la función de activación y su derivada requiere muchos recursos informáticos y tiempo durante el entrenamiento. Con el fin de mejorar la eficiencia computacional de las derivadas de la función de activación en la retropropagación de redes neuronales artificiales, este artículo propone un método basado en el método de aproximación lineal por partes para calcular la derivada de la función de activación. Este método es amigable con el hardware y universal, puede calcular eficientemente varias funciones de activación no lineales en el campo de los aceleradores de hardware de redes neuronales. En este artículo, utilizamos mínimos cuadrados para mejorar un método de cálculo de aproximación lineal por partes que puede controlar el error absoluto y obtener un menor número de segmentos o un error promedio más pequeño, lo que significa que se requieren menos recursos de hardware. Utilizamos este método para realizar una aproximación lineal segmentada a la función original o derivada de la función de activación. Ambos tipos de funciones de activación se sustituyen en un perceptrón multicapa para experimentos de clasificación binaria para verificar la efectividad del método propuesto. Los resultados experimentales muestran que se puede lograr la misma o incluso una precisión de clasificación ligeramente mayor al usar este método, y el tiempo de cálculo de la retropropagación se reduce en un 4-6% en comparación con el cálculo directo de la derivada directamente desde la expresión de la función utilizando el operador encapsulado en PyTorch. Esto muestra que el método propuesto proporciona una solución eficiente de funciones de activación no lineales para la aceleración de hardware de redes neuronales.

Otros recursos que podrían interesarte

Temas Virtualpro