DefAn: Conjunto de Datos de Respuesta Definitiva para la Evaluación de Alucinaciones de LLM
Autores: Rahman, A. B. M. Ashikur; Anwar, Saeed; Usman, Muhammad; Ahmad, Irfan; Mian, Ajmal
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
DefAn: Conjunto de Datos de Respuesta Definitiva para la Evaluación de Alucinaciones de LLM
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de lenguaje grandes
Alucinaciones
Conjunto de datos de referencia
Indicaciones
Capacidades generativas
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los Modelos de Lenguaje Grande (LLMs) representan un gran avance en el desarrollo de la IA y se utilizan cada vez más en aplicaciones diarias. Sin embargo, son propensos a alucinaciones, generando afirmaciones que contradicen hechos establecidos, desviándose de las indicaciones y produciendo respuestas inconsistentes cuando se presenta la misma indicación varias veces. Abordar estos problemas es un desafío debido a la falta de conjuntos de datos de referencia completos y fácilmente evaluables. La mayoría de los conjuntos de datos existentes son limitados en escala y alcance y dependen de preguntas de opción múltiple, que son insuficientes para evaluar las capacidades generativas de los LLMs. Para evaluar la alucinación en los LLMs, este documento introduce un conjunto de datos de referencia integral que consta de más de 20,000 indicaciones únicas (más de 75,000 indicaciones en total) en ocho dominios. Estas indicaciones están diseñadas para elicitar respuestas definitivas, concisas e informativas. El conjunto de datos se divide en dos segmentos: uno disponible públicamente para probar y evaluar el rendimiento de los LLMs, y un segmento oculto para la evaluación comparativa de varios LLMs. En nuestros experimentos, probamos nueve modelos de última generación (SoTA), GPT-4o, GPT-3.5, LLama 2 7B, LLama 3 8B, Gemini 1.0 Pro, Mixtral 8x7B, Zephyr 7B, Deepseek-r1-7b y Qwen2.5-14B, revelando que la alucinación fáctica general varía del 48% al 82% en el conjunto de datos público y del 31% al 76% en el benchmark oculto. La alucinación por desalineación de indicaciones alcanza hasta el 95% en el conjunto de datos público y hasta el 94% en el correspondiente oculto. La consistencia promedio varía del 21% al 61% y del 44% al 63%, respectivamente. El análisis por dominio revela que el rendimiento de los LLMs se deteriora significativamente cuando se les pide información numérica específica, mientras que se desempeñan moderadamente con consultas que involucran personas, ubicaciones y fechas. Nuestro conjunto de datos demuestra su eficacia y sirve como un benchmark integral para evaluar el rendimiento de los LLMs.
Descripción
Los Modelos de Lenguaje Grande (LLMs) representan un gran avance en el desarrollo de la IA y se utilizan cada vez más en aplicaciones diarias. Sin embargo, son propensos a alucinaciones, generando afirmaciones que contradicen hechos establecidos, desviándose de las indicaciones y produciendo respuestas inconsistentes cuando se presenta la misma indicación varias veces. Abordar estos problemas es un desafío debido a la falta de conjuntos de datos de referencia completos y fácilmente evaluables. La mayoría de los conjuntos de datos existentes son limitados en escala y alcance y dependen de preguntas de opción múltiple, que son insuficientes para evaluar las capacidades generativas de los LLMs. Para evaluar la alucinación en los LLMs, este documento introduce un conjunto de datos de referencia integral que consta de más de 20,000 indicaciones únicas (más de 75,000 indicaciones en total) en ocho dominios. Estas indicaciones están diseñadas para elicitar respuestas definitivas, concisas e informativas. El conjunto de datos se divide en dos segmentos: uno disponible públicamente para probar y evaluar el rendimiento de los LLMs, y un segmento oculto para la evaluación comparativa de varios LLMs. En nuestros experimentos, probamos nueve modelos de última generación (SoTA), GPT-4o, GPT-3.5, LLama 2 7B, LLama 3 8B, Gemini 1.0 Pro, Mixtral 8x7B, Zephyr 7B, Deepseek-r1-7b y Qwen2.5-14B, revelando que la alucinación fáctica general varía del 48% al 82% en el conjunto de datos público y del 31% al 76% en el benchmark oculto. La alucinación por desalineación de indicaciones alcanza hasta el 95% en el conjunto de datos público y hasta el 94% en el correspondiente oculto. La consistencia promedio varía del 21% al 61% y del 44% al 63%, respectivamente. El análisis por dominio revela que el rendimiento de los LLMs se deteriora significativamente cuando se les pide información numérica específica, mientras que se desempeñan moderadamente con consultas que involucran personas, ubicaciones y fechas. Nuestro conjunto de datos demuestra su eficacia y sirve como un benchmark integral para evaluar el rendimiento de los LLMs.