logo móvil
Contáctanos

Una Evaluación Sistemática de Modelos de Lenguaje Grande y Generación Aumentada por Recuperación para la Tarea de Respuesta a Preguntas en Kazajo

Autores: Mansurova, Aigerim; Tleubayeva, Arailym; Nugumanova, Aliya; Shomanov, Adai; Seker, Sadi Evren

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Una Evaluación Sistemática de Modelos de Lenguaje Grande y Generación Aumentada por Recuperación para la Tarea de Respuesta a Preguntas en Kazajo


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje grandes
Generación aumentada por recuperación
Respuesta a preguntas
Idioma kazajo de bajos recursos
Libro cerrado
Configuraciones RAG

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este documento presenta una evaluación sistemática de modelos de lenguaje grandes (LLMs) y enfoques de generación aumentada por recuperación (RAG) para la respuesta a preguntas (QA) en el idioma kazajo de bajos recursos. Evaluamos el rendimiento de modelos existentes propietarios (GPT-4o, Gemini 2.5-flash) y modelos orientados al kazajo de código abierto (KazLLM-8B, Sherkala-8B, Irbis-7B) en configuraciones de libro cerrado y RAG. Dentro de un marco de evaluación de tres etapas, evaluamos la calidad del recuperador, examinamos las habilidades de LLM como la detección de brechas de conocimiento, la integración de la verdad externa y el anclaje contextual, y medimos las ganancias de los pipelines RAG realistas de extremo a extremo. Nuestros resultados muestran un patrón claro: los modelos propietarios lideran en QA de libro cerrado, pero RAG reduce sustancialmente la brecha. En la configuración ideal de RAG, KazLLM-8B mejora desde su línea base de libro cerrado de 0.427 hasta alcanzar una corrección de respuesta de 0.867, igualando de cerca la puntuación de GPT-4o de 0.869. En la configuración RAG de extremo a extremo, KazLLM-8B emparejado con el recuperador Snowflake logró una corrección de respuesta de hasta 0.754, superando la mejor puntuación de GPT-4o de 0.632. A pesar de las mejoras, los resultados de RAG muestran una inconsistencia: métricas de recuperación altas no garantizan una alta precisión del sistema QA. Los hallazgos destacan la importancia de los recuperadores y las estrategias de anclaje contextual para permitir que los modelos kazajos de código abierto ofrezcan un rendimiento competitivo en QA en un entorno de bajos recursos.

Otros recursos que podrían interesarte

Temas Virtualpro