Una Evaluación Sistemática de Modelos de Lenguaje Grande y Generación Aumentada por Recuperación para la Tarea de Respuesta a Preguntas en Kazajo
Autores: Mansurova, Aigerim; Tleubayeva, Arailym; Nugumanova, Aliya; Shomanov, Adai; Seker, Sadi Evren
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Una Evaluación Sistemática de Modelos de Lenguaje Grande y Generación Aumentada por Recuperación para la Tarea de Respuesta a Preguntas en Kazajo
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de lenguaje grandes
Generación aumentada por recuperación
Respuesta a preguntas
Idioma kazajo de bajos recursos
Libro cerrado
Configuraciones RAG
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento presenta una evaluación sistemática de modelos de lenguaje grandes (LLMs) y enfoques de generación aumentada por recuperación (RAG) para la respuesta a preguntas (QA) en el idioma kazajo de bajos recursos. Evaluamos el rendimiento de modelos existentes propietarios (GPT-4o, Gemini 2.5-flash) y modelos orientados al kazajo de código abierto (KazLLM-8B, Sherkala-8B, Irbis-7B) en configuraciones de libro cerrado y RAG. Dentro de un marco de evaluación de tres etapas, evaluamos la calidad del recuperador, examinamos las habilidades de LLM como la detección de brechas de conocimiento, la integración de la verdad externa y el anclaje contextual, y medimos las ganancias de los pipelines RAG realistas de extremo a extremo. Nuestros resultados muestran un patrón claro: los modelos propietarios lideran en QA de libro cerrado, pero RAG reduce sustancialmente la brecha. En la configuración ideal de RAG, KazLLM-8B mejora desde su línea base de libro cerrado de 0.427 hasta alcanzar una corrección de respuesta de 0.867, igualando de cerca la puntuación de GPT-4o de 0.869. En la configuración RAG de extremo a extremo, KazLLM-8B emparejado con el recuperador Snowflake logró una corrección de respuesta de hasta 0.754, superando la mejor puntuación de GPT-4o de 0.632. A pesar de las mejoras, los resultados de RAG muestran una inconsistencia: métricas de recuperación altas no garantizan una alta precisión del sistema QA. Los hallazgos destacan la importancia de los recuperadores y las estrategias de anclaje contextual para permitir que los modelos kazajos de código abierto ofrezcan un rendimiento competitivo en QA en un entorno de bajos recursos.
Descripción
Este documento presenta una evaluación sistemática de modelos de lenguaje grandes (LLMs) y enfoques de generación aumentada por recuperación (RAG) para la respuesta a preguntas (QA) en el idioma kazajo de bajos recursos. Evaluamos el rendimiento de modelos existentes propietarios (GPT-4o, Gemini 2.5-flash) y modelos orientados al kazajo de código abierto (KazLLM-8B, Sherkala-8B, Irbis-7B) en configuraciones de libro cerrado y RAG. Dentro de un marco de evaluación de tres etapas, evaluamos la calidad del recuperador, examinamos las habilidades de LLM como la detección de brechas de conocimiento, la integración de la verdad externa y el anclaje contextual, y medimos las ganancias de los pipelines RAG realistas de extremo a extremo. Nuestros resultados muestran un patrón claro: los modelos propietarios lideran en QA de libro cerrado, pero RAG reduce sustancialmente la brecha. En la configuración ideal de RAG, KazLLM-8B mejora desde su línea base de libro cerrado de 0.427 hasta alcanzar una corrección de respuesta de 0.867, igualando de cerca la puntuación de GPT-4o de 0.869. En la configuración RAG de extremo a extremo, KazLLM-8B emparejado con el recuperador Snowflake logró una corrección de respuesta de hasta 0.754, superando la mejor puntuación de GPT-4o de 0.632. A pesar de las mejoras, los resultados de RAG muestran una inconsistencia: métricas de recuperación altas no garantizan una alta precisión del sistema QA. Los hallazgos destacan la importancia de los recuperadores y las estrategias de anclaje contextual para permitir que los modelos kazajos de código abierto ofrezcan un rendimiento competitivo en QA en un entorno de bajos recursos.