CacheFormer: almacenamiento en caché de segmentos basado en alta atención
Autores: Singh, Sushant; Mahmood, Ausif
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
CacheFormer: almacenamiento en caché de segmentos basado en alta atención
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Eficientemente
Contextos largos
Modelos de lenguaje basados en transformadores
Baja perplejidad
Mecanismo de atención
Manejo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
El manejo eficiente de contextos largos en modelos de lenguaje basados en transformadores con baja perplejidad es un área activa de investigación. Numerosos enfoques recientes como Linformer, Longformer, Performer y modelos de espacio de estado estructurado (SSMs), no han resuelto completamente este problema. Todos estos modelos se esfuerzan por reducir la complejidad temporal cuadrática del mecanismo de atención al tiempo que minimizan la pérdida de calidad debido a la compresión efectiva del contexto largo. Inspirados en el principio de caché y memoria virtual en computadoras, donde en caso de fallo de caché, no solo se recuperan los datos necesarios de la memoria, sino que también se obtienen los datos adyacentes, aplicamos este concepto para manejar contextos largos dividiéndolos en pequeños segmentos. En nuestro diseño, recuperamos los segmentos cercanos en forma no comprimida cuando ocurre una alta atención a nivel de segmento en el nivel comprimido. Nuestras mejoras para el manejo de contextos largos incluyen la agregación de cuatro mecanismos de atención que consisten en atención de ventana deslizante corta, atención segmentada comprimida larga, recuperación dinámica de segmentos no comprimidos con mayor atención superior, y segmentos superpuestos en atención de segmentos largos para evitar la fragmentación de segmentos. Estas mejoras resultan en una arquitectura que supera a las arquitecturas SOTA existentes con una mejora promedio de perplejidad del 8.5% sobre tamaños de modelo similares.
Descripción
El manejo eficiente de contextos largos en modelos de lenguaje basados en transformadores con baja perplejidad es un área activa de investigación. Numerosos enfoques recientes como Linformer, Longformer, Performer y modelos de espacio de estado estructurado (SSMs), no han resuelto completamente este problema. Todos estos modelos se esfuerzan por reducir la complejidad temporal cuadrática del mecanismo de atención al tiempo que minimizan la pérdida de calidad debido a la compresión efectiva del contexto largo. Inspirados en el principio de caché y memoria virtual en computadoras, donde en caso de fallo de caché, no solo se recuperan los datos necesarios de la memoria, sino que también se obtienen los datos adyacentes, aplicamos este concepto para manejar contextos largos dividiéndolos en pequeños segmentos. En nuestro diseño, recuperamos los segmentos cercanos en forma no comprimida cuando ocurre una alta atención a nivel de segmento en el nivel comprimido. Nuestras mejoras para el manejo de contextos largos incluyen la agregación de cuatro mecanismos de atención que consisten en atención de ventana deslizante corta, atención segmentada comprimida larga, recuperación dinámica de segmentos no comprimidos con mayor atención superior, y segmentos superpuestos en atención de segmentos largos para evitar la fragmentación de segmentos. Estas mejoras resultan en una arquitectura que supera a las arquitecturas SOTA existentes con una mejora promedio de perplejidad del 8.5% sobre tamaños de modelo similares.