logo móvil
Contáctanos

Diagnosticando sesgo e inestabilidad en la evaluación de LLM: un meta-evaluador pareado escalable

Autores: Anghel, Catalin; Anghel, Andreea Alexandra; Pecheanu, Emilia; Cocu, Adina; Istrate, Adrian; Andrei, Constantin Adrian

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Diagnosticando sesgo e inestabilidad en la evaluación de LLM: un meta-evaluador pareado escalable


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje grandes
Jueces automatizados
Fiabilidad del evaluador
Sesgo posicional
Estabilidad en el ranking
Comparaciones por pares

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La evaluación de modelos de lenguaje grandes (LLMs) depende cada vez más de otros LLMs que actúan como jueces automatizados. Si bien este enfoque ofrece escalabilidad y eficiencia, plantea serias preocupaciones sobre la fiabilidad del evaluador, el sesgo posicional y la estabilidad del ranking. Este documento presenta un marco escalable para diagnosticar el sesgo posicional y la inestabilidad en la evaluación basada en LLM mediante comparaciones controladas por pares juzgadas por múltiples modelos de lenguaje independientes. El sistema admite comparaciones reflejadas con un orden de respuesta invertido, inyección de indicaciones y perturbaciones a nivel superficial (por ejemplo, parafraseo, ruido léxico), lo que permite un análisis detallado de la consistencia del evaluador y la robustez del veredicto. Se realizaron más de 3600 comparaciones por pares en cinco modelos de peso abierto ajustados por instrucciones utilizando diez indicaciones abiertas. El modelo de mejor rendimiento (gemma:7b-instruct) logró una tasa de victoria del 66.5%. El acuerdo entre evaluadores fue uniformemente alto, con un 100% de consistencia entre los jueces, sin embargo, el 48.4% de los veredictos se invirtieron bajo el orden de respuesta reflejado, lo que indica un fuerte sesgo posicional. El análisis de Tau de Kendall mostró además que los rankings de modelos locales variaron sustancialmente entre indicaciones, sugiriendo que el contexto semántico influye en el juicio del evaluador. Todas las trazas de evaluación se almacenaron en una base de datos gráfica (Neo4j), lo que permite consultas estructuradas y análisis longitudinales. El marco propuesto no solo proporciona una lente diagnóstica para la evaluación de modelos, sino también un plan para una evaluación basada en LLM más justa e interpretable. Estos hallazgos subrayan la necesidad de tuberías de evaluación conscientes de la estructura y resistentes a perturbaciones al evaluar LLMs. El marco propuesto ofrece un camino reproducible para diagnosticar el sesgo del evaluador y la inestabilidad del ranking en tareas de lenguaje abiertas. El trabajo futuro aplicará esta metodología a tareas de evaluación educativa, utilizando puntuaciones basadas en rúbricas y trazabilidad basada en gráficos para evaluar las respuestas de los estudiantes en dominios técnicos.

Otros recursos que podrían interesarte

Temas Virtualpro