CacheFormer: almacenamiento en caché de segmentos basado en alta atención

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

CacheFormer: almacenamiento en caché de segmentos basado en alta atención

Autores: Singh, Sushant; Mahmood, Ausif

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

CacheFormer: almacenamiento en caché de segmentos basado en alta atención

Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Eficientemente

Contextos largos

Modelos de lenguaje basados en transformadores

Baja perplejidad

Mecanismo de atención

Manejo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones

El manejo eficiente de contextos largos en modelos de lenguaje basados en transformadores con baja perplejidad es un área activa de investigación. Numerosos enfoques recientes como Linformer, Longformer, Performer y modelos de espacio de estado estructurado (SSMs), no han resuelto completamente este problema. Todos estos modelos se esfuerzan por reducir la complejidad temporal cuadrática del mecanismo de atención al tiempo que minimizan la pérdida de calidad debido a la compresión efectiva del contexto largo. Inspirados en el principio de caché y memoria virtual en computadoras, donde en caso de fallo de caché, no solo se recuperan los datos necesarios de la memoria, sino que también se obtienen los datos adyacentes, aplicamos este concepto para manejar contextos largos dividiéndolos en pequeños segmentos. En nuestro diseño, recuperamos los segmentos cercanos en forma no comprimida cuando ocurre una alta atención a nivel de segmento en el nivel comprimido. Nuestras mejoras para el manejo de contextos largos incluyen la agregación de cuatro mecanismos de atención que consisten en atención de ventana deslizante corta, atención segmentada comprimida larga, recuperación dinámica de segmentos no comprimidos con mayor atención superior, y segmentos superpuestos en atención de segmentos largos para evitar la fragmentación de segmentos. Estas mejoras resultan en una arquitectura que supera a las arquitecturas SOTA existentes con una mejora promedio de perplejidad del 8.5% sobre tamaños de modelo similares.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro