logo móvil
Contáctanos

Eficiente de memoria para el entrenamiento de transformadores de series temporales: una evaluación sistemática

Autores: Sinthong, Phanwadee; Nguyen, Nam; Ekambaram, Vijay; Jati, Arindam; Kalagnanam, Jayant; Koad, Peeravit

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Eficiente de memoria para el entrenamiento de transformadores de series temporales: una evaluación sistemática


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Transformador
Series temporales
Marco de trabajo de agrupación eficiente en memoria
Tensores residentes en GPU
Arquitecturas de modelos
Eficiencia de entrenamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
Los modelos basados en transformadores se están empleando cada vez más para el análisis de datos de series temporales. Sin embargo, su entrenamiento sigue siendo intensivo en memoria, especialmente con datos de alta dimensionalidad y ventanas de retroceso extendidas, mientras que las optimizaciones de memoria a nivel de modelo están bien estudiadas, el proceso de formación de lotes sigue siendo un factor poco explorado para la ineficiencia del rendimiento. Este artículo presenta un marco de trabajo de formación de lotes eficiente en memoria basado en ventanas deslizantes basadas en vistas que operan directamente en tensores residentes en GPU. Este enfoque elimina la materialización de datos redundantes causada por el apilamiento de tensores y reduce los volúmenes de transferencia de datos sin modificar las arquitecturas de modelo. Presentamos dos variantes de nuestra solución: (1) optimización para conjuntos de datos que exceden la memoria de la GPU, y (2) optimización para cargas de trabajo en memoria. Evaluamos sistemáticamente nuestro marco de trabajo de formación de lotes propuesto utilizando el consumo pico de memoria de la GPU y el tiempo de ejecución por época como métricas de eficiencia en diferentes tamaños de lote, longitudes de secuencia, dimensiones de características y arquitecturas de modelo. Los resultados muestran ahorros de memoria consistentes, con un promedio del 90% y mejoras en el tiempo de ejecución de hasta un 33% en varios modelos basados en transformadores (Informer, Autoformer, Transformer y PatchTST) y una línea base lineal (DLinear) sin comprometer la precisión del modelo. Validamos extensamente nuestro método utilizando benchmarks sintéticos y estándar del mundo real, demostrando la preservación de la precisión y la escalabilidad práctica en entornos distribuidos de GPU. El método propuesto destaca el proceso de formación de lotes como un componente crítico para mejorar la eficiencia del entrenamiento.

Otros recursos que podrían interesarte

Temas Virtualpro