Eficiente de memoria para el entrenamiento de transformadores de series temporales: una evaluación sistemática
Autores: Sinthong, Phanwadee; Nguyen, Nam; Ekambaram, Vijay; Jati, Arindam; Kalagnanam, Jayant; Koad, Peeravit
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Eficiente de memoria para el entrenamiento de transformadores de series temporales: una evaluación sistemática
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Transformador
Series temporales
Marco de trabajo de agrupación eficiente en memoria
Tensores residentes en GPU
Arquitecturas de modelos
Eficiencia de entrenamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Los modelos basados en transformadores se están empleando cada vez más para el análisis de datos de series temporales. Sin embargo, su entrenamiento sigue siendo intensivo en memoria, especialmente con datos de alta dimensionalidad y ventanas de retroceso extendidas, mientras que las optimizaciones de memoria a nivel de modelo están bien estudiadas, el proceso de formación de lotes sigue siendo un factor poco explorado para la ineficiencia del rendimiento. Este artículo presenta un marco de trabajo de formación de lotes eficiente en memoria basado en ventanas deslizantes basadas en vistas que operan directamente en tensores residentes en GPU. Este enfoque elimina la materialización de datos redundantes causada por el apilamiento de tensores y reduce los volúmenes de transferencia de datos sin modificar las arquitecturas de modelo. Presentamos dos variantes de nuestra solución: (1) optimización para conjuntos de datos que exceden la memoria de la GPU, y (2) optimización para cargas de trabajo en memoria. Evaluamos sistemáticamente nuestro marco de trabajo de formación de lotes propuesto utilizando el consumo pico de memoria de la GPU y el tiempo de ejecución por época como métricas de eficiencia en diferentes tamaños de lote, longitudes de secuencia, dimensiones de características y arquitecturas de modelo. Los resultados muestran ahorros de memoria consistentes, con un promedio del 90% y mejoras en el tiempo de ejecución de hasta un 33% en varios modelos basados en transformadores (Informer, Autoformer, Transformer y PatchTST) y una línea base lineal (DLinear) sin comprometer la precisión del modelo. Validamos extensamente nuestro método utilizando benchmarks sintéticos y estándar del mundo real, demostrando la preservación de la precisión y la escalabilidad práctica en entornos distribuidos de GPU. El método propuesto destaca el proceso de formación de lotes como un componente crítico para mejorar la eficiencia del entrenamiento.
Descripción
Los modelos basados en transformadores se están empleando cada vez más para el análisis de datos de series temporales. Sin embargo, su entrenamiento sigue siendo intensivo en memoria, especialmente con datos de alta dimensionalidad y ventanas de retroceso extendidas, mientras que las optimizaciones de memoria a nivel de modelo están bien estudiadas, el proceso de formación de lotes sigue siendo un factor poco explorado para la ineficiencia del rendimiento. Este artículo presenta un marco de trabajo de formación de lotes eficiente en memoria basado en ventanas deslizantes basadas en vistas que operan directamente en tensores residentes en GPU. Este enfoque elimina la materialización de datos redundantes causada por el apilamiento de tensores y reduce los volúmenes de transferencia de datos sin modificar las arquitecturas de modelo. Presentamos dos variantes de nuestra solución: (1) optimización para conjuntos de datos que exceden la memoria de la GPU, y (2) optimización para cargas de trabajo en memoria. Evaluamos sistemáticamente nuestro marco de trabajo de formación de lotes propuesto utilizando el consumo pico de memoria de la GPU y el tiempo de ejecución por época como métricas de eficiencia en diferentes tamaños de lote, longitudes de secuencia, dimensiones de características y arquitecturas de modelo. Los resultados muestran ahorros de memoria consistentes, con un promedio del 90% y mejoras en el tiempo de ejecución de hasta un 33% en varios modelos basados en transformadores (Informer, Autoformer, Transformer y PatchTST) y una línea base lineal (DLinear) sin comprometer la precisión del modelo. Validamos extensamente nuestro método utilizando benchmarks sintéticos y estándar del mundo real, demostrando la preservación de la precisión y la escalabilidad práctica en entornos distribuidos de GPU. El método propuesto destaca el proceso de formación de lotes como un componente crítico para mejorar la eficiencia del entrenamiento.