Acelerando la inferencia en modelos de generación mejorada por recuperación para respuestas a preguntas de largo formato a través de la poda dinámica de tokens

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Acelerando la inferencia en modelos de generación mejorada por recuperación para respuestas a preguntas de largo formato a través de la poda dinámica de tokens

Autores: Kim, Wooseok; Kim, Gyunyeop; Kang, Sangwoo

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Acelerando la inferencia en modelos de generación mejorada por recuperación para respuestas a preguntas de largo formato a través de la poda dinámica de tokens

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Modelo de generación aumentada con recuperación

Respuesta a preguntas en dominio abierto

Respuesta a preguntas de formato largo

Poda dinámica de tokens.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones

Fusion-in-Decoder (FiD), un modelo prominente de generación aumentada por recuperación, ha demostrado un rendimiento excepcional en la respuesta a preguntas de dominio abierto al aprovechar de manera efectiva múltiples pasajes. Sin embargo, el procesamiento de múltiples pasajes aumenta significativamente los costos computacionales tanto en los componentes del codificador como del decodificador. En particular, en escenarios de Preguntas y Respuestas de Formato Largo (LFQA), el cálculo de la atención cruzada del decodificador escala proporcionalmente con la longitud de la respuesta generada, impactando severamente la velocidad general de inferencia. En este documento, proponemos un novedoso mecanismo de poda dinámica de tokens para aliviar el cuello de botella computacional del decodificador de FiD. Nuestro método identifica y elimina selectivamente tokens predichos como tener bajas contribuciones a la generación de respuestas al considerar conjuntamente su información contextual y puntuaciones de atención dentro del codificador de FiD. Las representaciones podadas resultantes se pasan luego al decodificador, reduciendo significativamente los cálculos de atención cruzada y acelerando así el proceso de inferencia en general. Las evaluaciones experimentales en dos bancos de pruebas LFQA, ASQA y CLAPNQ, demuestran que el método propuesto logra hasta un aumento de velocidad de hasta 1,74 veces mientras mantiene una degradación mínima en la calidad de las respuestas, mejorando efectivamente la eficiencia computacional en comparación con el modelo FiD original.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro