Diagnosticando sesgo e inestabilidad en la evaluación de LLM: un meta-evaluador pareado escalable
Autores: Anghel, Catalin; Anghel, Andreea Alexandra; Pecheanu, Emilia; Cocu, Adina; Istrate, Adrian; Andrei, Constantin Adrian
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Diagnosticando sesgo e inestabilidad en la evaluación de LLM: un meta-evaluador pareado escalable
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de lenguaje grandes
Jueces automatizados
Fiabilidad del evaluador
Sesgo posicional
Estabilidad en el ranking
Comparaciones por pares
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La evaluación de modelos de lenguaje grandes (LLMs) depende cada vez más de otros LLMs que actúan como jueces automatizados. Si bien este enfoque ofrece escalabilidad y eficiencia, plantea serias preocupaciones sobre la fiabilidad del evaluador, el sesgo posicional y la estabilidad del ranking. Este documento presenta un marco escalable para diagnosticar el sesgo posicional y la inestabilidad en la evaluación basada en LLM mediante comparaciones controladas por pares juzgadas por múltiples modelos de lenguaje independientes. El sistema admite comparaciones reflejadas con un orden de respuesta invertido, inyección de indicaciones y perturbaciones a nivel superficial (por ejemplo, parafraseo, ruido léxico), lo que permite un análisis detallado de la consistencia del evaluador y la robustez del veredicto. Se realizaron más de 3600 comparaciones por pares en cinco modelos de peso abierto ajustados por instrucciones utilizando diez indicaciones abiertas. El modelo de mejor rendimiento (gemma:7b-instruct) logró una tasa de victoria del 66.5%. El acuerdo entre evaluadores fue uniformemente alto, con un 100% de consistencia entre los jueces, sin embargo, el 48.4% de los veredictos se invirtieron bajo el orden de respuesta reflejado, lo que indica un fuerte sesgo posicional. El análisis de Tau de Kendall mostró además que los rankings de modelos locales variaron sustancialmente entre indicaciones, sugiriendo que el contexto semántico influye en el juicio del evaluador. Todas las trazas de evaluación se almacenaron en una base de datos gráfica (Neo4j), lo que permite consultas estructuradas y análisis longitudinales. El marco propuesto no solo proporciona una lente diagnóstica para la evaluación de modelos, sino también un plan para una evaluación basada en LLM más justa e interpretable. Estos hallazgos subrayan la necesidad de tuberías de evaluación conscientes de la estructura y resistentes a perturbaciones al evaluar LLMs. El marco propuesto ofrece un camino reproducible para diagnosticar el sesgo del evaluador y la inestabilidad del ranking en tareas de lenguaje abiertas. El trabajo futuro aplicará esta metodología a tareas de evaluación educativa, utilizando puntuaciones basadas en rúbricas y trazabilidad basada en gráficos para evaluar las respuestas de los estudiantes en dominios técnicos.
Descripción
La evaluación de modelos de lenguaje grandes (LLMs) depende cada vez más de otros LLMs que actúan como jueces automatizados. Si bien este enfoque ofrece escalabilidad y eficiencia, plantea serias preocupaciones sobre la fiabilidad del evaluador, el sesgo posicional y la estabilidad del ranking. Este documento presenta un marco escalable para diagnosticar el sesgo posicional y la inestabilidad en la evaluación basada en LLM mediante comparaciones controladas por pares juzgadas por múltiples modelos de lenguaje independientes. El sistema admite comparaciones reflejadas con un orden de respuesta invertido, inyección de indicaciones y perturbaciones a nivel superficial (por ejemplo, parafraseo, ruido léxico), lo que permite un análisis detallado de la consistencia del evaluador y la robustez del veredicto. Se realizaron más de 3600 comparaciones por pares en cinco modelos de peso abierto ajustados por instrucciones utilizando diez indicaciones abiertas. El modelo de mejor rendimiento (gemma:7b-instruct) logró una tasa de victoria del 66.5%. El acuerdo entre evaluadores fue uniformemente alto, con un 100% de consistencia entre los jueces, sin embargo, el 48.4% de los veredictos se invirtieron bajo el orden de respuesta reflejado, lo que indica un fuerte sesgo posicional. El análisis de Tau de Kendall mostró además que los rankings de modelos locales variaron sustancialmente entre indicaciones, sugiriendo que el contexto semántico influye en el juicio del evaluador. Todas las trazas de evaluación se almacenaron en una base de datos gráfica (Neo4j), lo que permite consultas estructuradas y análisis longitudinales. El marco propuesto no solo proporciona una lente diagnóstica para la evaluación de modelos, sino también un plan para una evaluación basada en LLM más justa e interpretable. Estos hallazgos subrayan la necesidad de tuberías de evaluación conscientes de la estructura y resistentes a perturbaciones al evaluar LLMs. El marco propuesto ofrece un camino reproducible para diagnosticar el sesgo del evaluador y la inestabilidad del ranking en tareas de lenguaje abiertas. El trabajo futuro aplicará esta metodología a tareas de evaluación educativa, utilizando puntuaciones basadas en rúbricas y trazabilidad basada en gráficos para evaluar las respuestas de los estudiantes en dominios técnicos.