Formulación matemática del aprendizaje y su complejidad computacional para las capas de los transformers
Autores: Pau, Danilo Pietro; Aymone, Fabrizio Maria
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Formulación matemática del aprendizaje y su complejidad computacional para las capas de los transformers
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería General
Palabras clave
Transformadores
Procesamiento de lenguaje natural
Complejidad computacional
Entrenamiento
Red neuronal
Retropropagación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
Los transformadores son la piedra angular del procesamiento del lenguaje natural y otras tareas de modelado secuencial mucho más complicadas. El entrenamiento de estos modelos, sin embargo, requiere un enorme número de cálculos, con impactos económicos y ambientales sustanciales. Una estimación precisa de la complejidad computacional del entrenamiento nos permitiría tener conciencia de antemano sobre la latencia y el consumo de energía asociados. Además, con la llegada de cargas de trabajo de aprendizaje hacia adelante, se requiere una estimación de la complejidad computacional de estas topologías de redes neuronales para comparar de manera confiable la retropropagación con estos procedimientos de aprendizaje avanzados. Este trabajo describe un enfoque matemático, independiente de la implementación en un objetivo específico, para estimar la complejidad del entrenamiento de un modelo de transformador. Por lo tanto, las ecuaciones utilizadas durante la retropropagación y los algoritmos de aprendizaje hacia adelante se derivan para cada capa y su complejidad se expresa en forma de MACCs y FLOPs. Al sumar todo esto de acuerdo con su incorporación en una topología completa y la regla de aprendizaje tenida en cuenta, se puede estimar la complejidad total de la carga de trabajo deseada del transformador.
Descripción
Los transformadores son la piedra angular del procesamiento del lenguaje natural y otras tareas de modelado secuencial mucho más complicadas. El entrenamiento de estos modelos, sin embargo, requiere un enorme número de cálculos, con impactos económicos y ambientales sustanciales. Una estimación precisa de la complejidad computacional del entrenamiento nos permitiría tener conciencia de antemano sobre la latencia y el consumo de energía asociados. Además, con la llegada de cargas de trabajo de aprendizaje hacia adelante, se requiere una estimación de la complejidad computacional de estas topologías de redes neuronales para comparar de manera confiable la retropropagación con estos procedimientos de aprendizaje avanzados. Este trabajo describe un enfoque matemático, independiente de la implementación en un objetivo específico, para estimar la complejidad del entrenamiento de un modelo de transformador. Por lo tanto, las ecuaciones utilizadas durante la retropropagación y los algoritmos de aprendizaje hacia adelante se derivan para cada capa y su complejidad se expresa en forma de MACCs y FLOPs. Al sumar todo esto de acuerdo con su incorporación en una topología completa y la regla de aprendizaje tenida en cuenta, se puede estimar la complejidad total de la carga de trabajo deseada del transformador.