logo móvil
Contáctanos

DefAn: Conjunto de Datos de Respuesta Definitiva para la Evaluación de Alucinaciones de LLM

Autores: Rahman, A. B. M. Ashikur; Anwar, Saeed; Usman, Muhammad; Ahmad, Irfan; Mian, Ajmal

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

DefAn: Conjunto de Datos de Respuesta Definitiva para la Evaluación de Alucinaciones de LLM


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje grandes
Alucinaciones
Conjunto de datos de referencia
Indicaciones
Capacidades generativas
Rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los Modelos de Lenguaje Grande (LLMs) representan un gran avance en el desarrollo de la IA y se utilizan cada vez más en aplicaciones diarias. Sin embargo, son propensos a alucinaciones, generando afirmaciones que contradicen hechos establecidos, desviándose de las indicaciones y produciendo respuestas inconsistentes cuando se presenta la misma indicación varias veces. Abordar estos problemas es un desafío debido a la falta de conjuntos de datos de referencia completos y fácilmente evaluables. La mayoría de los conjuntos de datos existentes son limitados en escala y alcance y dependen de preguntas de opción múltiple, que son insuficientes para evaluar las capacidades generativas de los LLMs. Para evaluar la alucinación en los LLMs, este documento introduce un conjunto de datos de referencia integral que consta de más de 20,000 indicaciones únicas (más de 75,000 indicaciones en total) en ocho dominios. Estas indicaciones están diseñadas para elicitar respuestas definitivas, concisas e informativas. El conjunto de datos se divide en dos segmentos: uno disponible públicamente para probar y evaluar el rendimiento de los LLMs, y un segmento oculto para la evaluación comparativa de varios LLMs. En nuestros experimentos, probamos nueve modelos de última generación (SoTA), GPT-4o, GPT-3.5, LLama 2 7B, LLama 3 8B, Gemini 1.0 Pro, Mixtral 8x7B, Zephyr 7B, Deepseek-r1-7b y Qwen2.5-14B, revelando que la alucinación fáctica general varía del 48% al 82% en el conjunto de datos público y del 31% al 76% en el benchmark oculto. La alucinación por desalineación de indicaciones alcanza hasta el 95% en el conjunto de datos público y hasta el 94% en el correspondiente oculto. La consistencia promedio varía del 21% al 61% y del 44% al 63%, respectivamente. El análisis por dominio revela que el rendimiento de los LLMs se deteriora significativamente cuando se les pide información numérica específica, mientras que se desempeñan moderadamente con consultas que involucran personas, ubicaciones y fechas. Nuestro conjunto de datos demuestra su eficacia y sirve como un benchmark integral para evaluar el rendimiento de los LLMs.

Otros recursos que podrían interesarte

Temas Virtualpro