logo móvil
Contáctanos

Acelerando la inferencia en modelos de generación mejorada por recuperación para respuestas a preguntas de largo formato a través de la poda dinámica de tokens

Autores: Kim, Wooseok; Kim, Gyunyeop; Kang, Sangwoo

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Acelerando la inferencia en modelos de generación mejorada por recuperación para respuestas a preguntas de largo formato a través de la poda dinámica de tokens


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Modelo de generación aumentada con recuperación
Respuesta a preguntas en dominio abierto
Respuesta a preguntas de formato largo
Poda dinámica de tokens.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones


Descripción
Fusion-in-Decoder (FiD), un modelo prominente de generación aumentada por recuperación, ha demostrado un rendimiento excepcional en la respuesta a preguntas de dominio abierto al aprovechar de manera efectiva múltiples pasajes. Sin embargo, el procesamiento de múltiples pasajes aumenta significativamente los costos computacionales tanto en los componentes del codificador como del decodificador. En particular, en escenarios de Preguntas y Respuestas de Formato Largo (LFQA), el cálculo de la atención cruzada del decodificador escala proporcionalmente con la longitud de la respuesta generada, impactando severamente la velocidad general de inferencia. En este documento, proponemos un novedoso mecanismo de poda dinámica de tokens para aliviar el cuello de botella computacional del decodificador de FiD. Nuestro método identifica y elimina selectivamente tokens predichos como tener bajas contribuciones a la generación de respuestas al considerar conjuntamente su información contextual y puntuaciones de atención dentro del codificador de FiD. Las representaciones podadas resultantes se pasan luego al decodificador, reduciendo significativamente los cálculos de atención cruzada y acelerando así el proceso de inferencia en general. Las evaluaciones experimentales en dos bancos de pruebas LFQA, ASQA y CLAPNQ, demuestran que el método propuesto logra hasta un aumento de velocidad de hasta 1,74 veces mientras mantiene una degradación mínima en la calidad de las respuestas, mejorando efectivamente la eficiencia computacional en comparación con el modelo FiD original.

Otros recursos que podrían interesarte

Temas Virtualpro