logo móvil
Contáctanos

CacheFormer: almacenamiento en caché de segmentos basado en alta atención

Autores: Singh, Sushant; Mahmood, Ausif

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

CacheFormer: almacenamiento en caché de segmentos basado en alta atención


Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Eficientemente
Contextos largos
Modelos de lenguaje basados en transformadores
Baja perplejidad
Mecanismo de atención
Manejo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones


Descripción
El manejo eficiente de contextos largos en modelos de lenguaje basados en transformadores con baja perplejidad es un área activa de investigación. Numerosos enfoques recientes como Linformer, Longformer, Performer y modelos de espacio de estado estructurado (SSMs), no han resuelto completamente este problema. Todos estos modelos se esfuerzan por reducir la complejidad temporal cuadrática del mecanismo de atención al tiempo que minimizan la pérdida de calidad debido a la compresión efectiva del contexto largo. Inspirados en el principio de caché y memoria virtual en computadoras, donde en caso de fallo de caché, no solo se recuperan los datos necesarios de la memoria, sino que también se obtienen los datos adyacentes, aplicamos este concepto para manejar contextos largos dividiéndolos en pequeños segmentos. En nuestro diseño, recuperamos los segmentos cercanos en forma no comprimida cuando ocurre una alta atención a nivel de segmento en el nivel comprimido. Nuestras mejoras para el manejo de contextos largos incluyen la agregación de cuatro mecanismos de atención que consisten en atención de ventana deslizante corta, atención segmentada comprimida larga, recuperación dinámica de segmentos no comprimidos con mayor atención superior, y segmentos superpuestos en atención de segmentos largos para evitar la fragmentación de segmentos. Estas mejoras resultan en una arquitectura que supera a las arquitecturas SOTA existentes con una mejora promedio de perplejidad del 8.5% sobre tamaños de modelo similares.

Otros recursos que podrían interesarte

Temas Virtualpro