Generación Aumentada por Recuperación vs. LLMs Baseline: Una Evaluación Multimétrica para Contenido Intensivo en Conocimiento
Autores: Vinayan Kozhipuram, Aparna; Shailendra, Samar; Kadel, Rajan
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Generación Aumentada por Recuperación vs. LLMs Baseline: Una Evaluación Multimétrica para Contenido Intensivo en Conocimiento
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Desarrollo
Inteligencia artificial generativa
Modelos de lenguaje grandes
LLMs aumentados por recuperación
Tamaño de parámetros
Métricas léxicas y semánticas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
(1) Contexto: El desarrollo de la Inteligencia Artificial Generativa (GenAI) está transformando dominios intensivos en conocimiento como la Educación. Sin embargo, los Modelos de Lenguaje Grande (LLMs), que sirven como componentes fundamentales para las herramientas de GenAI, se entrenan en conjuntos de datos estáticos, produciendo a menudo respuestas engañosas, factualmente incorrectas o desactualizadas. Nuestro estudio explora las mejoras en el rendimiento de los LLMs Aumentados por Recuperación en comparación con los LLMs base, al mismo tiempo que identifica la oportunidad de compensación entre LLMs de menor cantidad de parámetros aumentados con datos específicos del usuario y LLMs de mayor cantidad de parámetros. (2) Métodos: Experimentamos con cuatro LLMs diferentes, cada uno con un número diferente de parámetros, para generar salidas. Estas salidas fueron evaluadas a través de siete métricas léxicas y semánticas para identificar tendencias de rendimiento en los LLMs Aumentados por Recuperación (RAG) y analizar el impacto del tamaño de los parámetros en el rendimiento de los LLMs. (3) Resultados y Discusiones: Hemos sintetizado 968 combinaciones diferentes para identificar esta tendencia con la ayuda de diferentes tamaños/parámetros de LLM: TinyLlama 1.1B, Mistral 7B, Llama 3.1 8B y Llama 1 13 B. Estos estudios se agruparon en dos temas: mejoras porcentuales de LLMs Aumentados por Recuperación en comparación con LLMs base y posibilidades de compensación atractivas de LLMs de menor cantidad de parámetros Aumentados por Recuperación en comparación con LLMs de mayor cantidad de parámetros. Nuestros experimentos muestran que los LLMs Aumentados por Recuperación demuestran altas puntuaciones léxicas y semánticas en relación con los LLMs base. Esto ofrece a los LLMs Aumentados por Recuperación como una compensación atractiva para reducir el número de parámetros en los LLMs y disminuir las demandas generales de recursos. (4) Conclusiones: Los hallazgos indican que al aprovechar los LLMs Aumentados por Recuperación, los LLMs de menor cantidad de parámetros pueden desempeñarse mejor o de manera equivalente a los LLMs de mayor cantidad de parámetros, demostrando particularmente fuertes mejoras léxicas. Reducen los riesgos de alucinación y mantienen la salida más contextualizada, lo que los convierte en una mejor opción para contenido intensivo en conocimiento en los sectores académico y de investigación.
Descripción
(1) Contexto: El desarrollo de la Inteligencia Artificial Generativa (GenAI) está transformando dominios intensivos en conocimiento como la Educación. Sin embargo, los Modelos de Lenguaje Grande (LLMs), que sirven como componentes fundamentales para las herramientas de GenAI, se entrenan en conjuntos de datos estáticos, produciendo a menudo respuestas engañosas, factualmente incorrectas o desactualizadas. Nuestro estudio explora las mejoras en el rendimiento de los LLMs Aumentados por Recuperación en comparación con los LLMs base, al mismo tiempo que identifica la oportunidad de compensación entre LLMs de menor cantidad de parámetros aumentados con datos específicos del usuario y LLMs de mayor cantidad de parámetros. (2) Métodos: Experimentamos con cuatro LLMs diferentes, cada uno con un número diferente de parámetros, para generar salidas. Estas salidas fueron evaluadas a través de siete métricas léxicas y semánticas para identificar tendencias de rendimiento en los LLMs Aumentados por Recuperación (RAG) y analizar el impacto del tamaño de los parámetros en el rendimiento de los LLMs. (3) Resultados y Discusiones: Hemos sintetizado 968 combinaciones diferentes para identificar esta tendencia con la ayuda de diferentes tamaños/parámetros de LLM: TinyLlama 1.1B, Mistral 7B, Llama 3.1 8B y Llama 1 13 B. Estos estudios se agruparon en dos temas: mejoras porcentuales de LLMs Aumentados por Recuperación en comparación con LLMs base y posibilidades de compensación atractivas de LLMs de menor cantidad de parámetros Aumentados por Recuperación en comparación con LLMs de mayor cantidad de parámetros. Nuestros experimentos muestran que los LLMs Aumentados por Recuperación demuestran altas puntuaciones léxicas y semánticas en relación con los LLMs base. Esto ofrece a los LLMs Aumentados por Recuperación como una compensación atractiva para reducir el número de parámetros en los LLMs y disminuir las demandas generales de recursos. (4) Conclusiones: Los hallazgos indican que al aprovechar los LLMs Aumentados por Recuperación, los LLMs de menor cantidad de parámetros pueden desempeñarse mejor o de manera equivalente a los LLMs de mayor cantidad de parámetros, demostrando particularmente fuertes mejoras léxicas. Reducen los riesgos de alucinación y mantienen la salida más contextualizada, lo que los convierte en una mejor opción para contenido intensivo en conocimiento en los sectores académico y de investigación.