Acelerando la inferencia en modelos de generación mejorada por recuperación para respuestas a preguntas de largo formato a través de la poda dinámica de tokens
Autores: Kim, Wooseok; Kim, Gyunyeop; Kang, Sangwoo
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Acelerando la inferencia en modelos de generación mejorada por recuperación para respuestas a preguntas de largo formato a través de la poda dinámica de tokens
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Modelo de generación aumentada con recuperación
Respuesta a preguntas en dominio abierto
Respuesta a preguntas de formato largo
Poda dinámica de tokens.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
Fusion-in-Decoder (FiD), un modelo prominente de generación aumentada por recuperación, ha demostrado un rendimiento excepcional en la respuesta a preguntas de dominio abierto al aprovechar de manera efectiva múltiples pasajes. Sin embargo, el procesamiento de múltiples pasajes aumenta significativamente los costos computacionales tanto en los componentes del codificador como del decodificador. En particular, en escenarios de Preguntas y Respuestas de Formato Largo (LFQA), el cálculo de la atención cruzada del decodificador escala proporcionalmente con la longitud de la respuesta generada, impactando severamente la velocidad general de inferencia. En este documento, proponemos un novedoso mecanismo de poda dinámica de tokens para aliviar el cuello de botella computacional del decodificador de FiD. Nuestro método identifica y elimina selectivamente tokens predichos como tener bajas contribuciones a la generación de respuestas al considerar conjuntamente su información contextual y puntuaciones de atención dentro del codificador de FiD. Las representaciones podadas resultantes se pasan luego al decodificador, reduciendo significativamente los cálculos de atención cruzada y acelerando así el proceso de inferencia en general. Las evaluaciones experimentales en dos bancos de pruebas LFQA, ASQA y CLAPNQ, demuestran que el método propuesto logra hasta un aumento de velocidad de hasta 1,74 veces mientras mantiene una degradación mínima en la calidad de las respuestas, mejorando efectivamente la eficiencia computacional en comparación con el modelo FiD original.
Descripción
Fusion-in-Decoder (FiD), un modelo prominente de generación aumentada por recuperación, ha demostrado un rendimiento excepcional en la respuesta a preguntas de dominio abierto al aprovechar de manera efectiva múltiples pasajes. Sin embargo, el procesamiento de múltiples pasajes aumenta significativamente los costos computacionales tanto en los componentes del codificador como del decodificador. En particular, en escenarios de Preguntas y Respuestas de Formato Largo (LFQA), el cálculo de la atención cruzada del decodificador escala proporcionalmente con la longitud de la respuesta generada, impactando severamente la velocidad general de inferencia. En este documento, proponemos un novedoso mecanismo de poda dinámica de tokens para aliviar el cuello de botella computacional del decodificador de FiD. Nuestro método identifica y elimina selectivamente tokens predichos como tener bajas contribuciones a la generación de respuestas al considerar conjuntamente su información contextual y puntuaciones de atención dentro del codificador de FiD. Las representaciones podadas resultantes se pasan luego al decodificador, reduciendo significativamente los cálculos de atención cruzada y acelerando así el proceso de inferencia en general. Las evaluaciones experimentales en dos bancos de pruebas LFQA, ASQA y CLAPNQ, demuestran que el método propuesto logra hasta un aumento de velocidad de hasta 1,74 veces mientras mantiene una degradación mínima en la calidad de las respuestas, mejorando efectivamente la eficiencia computacional en comparación con el modelo FiD original.