logo móvil
Contáctanos

PEARL: Un marco de evaluación de LLM basado en rúbricas y múltiples métricas

Autores: Anghel, Catalin; Anghel, Andreea Alexandra; Pecheanu, Emilia; Craciun, Marian Viorel; Cocu, Adina; Niculita, Cristian

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

PEARL: Un marco de evaluación de LLM basado en rúbricas y múltiples métricas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Evaluación de modelos de lenguaje grandes
Contextos pedagógicos y educativos
Marco de perlas
Rúbricas
Dimensiones de rendimiento
Métricas de evaluación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Antecedentes y objetivos: La evaluación de Modelos de Lenguaje Grande (LLMs) presenta dos desafíos interrelacionados: el problema general de evaluar el rendimiento del modelo en diversas tareas y el problema específico de utilizar los LLMs como evaluadores en contextos pedagógicos y educativos. Los enfoques existentes a menudo se basan en métricas únicas o métodos de preferencia opacos, que no logran capturar dimensiones críticas como la calidad de la explicación, la robustez y la diversidad argumentativa, atributos esenciales en entornos de instrucción. Este documento presenta PEARL, un nuevo marco concebido, operacionalizado y evaluado en el presente trabajo utilizando evaluadores basados en LLM, diseñado para proporcionar evaluaciones interpretables, reproducibles y pedagógicamente significativas a través de múltiples dimensiones de rendimiento. Métodos: PEARL integra tres rúbricas especializadas: Técnica, Argumentativa y Enfocada en la Explicación, que cubren aspectos como la precisión fáctica, la claridad, la completitud, la originalidad, la dialéctica y la utilidad explicativa. El marco define siete métricas complementarias: Conteo de Victorias de Rúbrica (RWC), Tasa Global de Victorias (GWR), Ventaja Media de Rúbrica (RMA), Dispersión de Consistencia (CS), Puntaje de Confianza de Victoria (WCS), Índice de Calidad de Explicación (EQI) y Tasa de Presencia Dialéctica (DPR). Evaluamos PEARL evaluando ocho LLMs ajustados a instrucciones de peso abierto a través de 51 indicaciones, con salidas puntuadas de manera independiente por GPT-4 y LLaMA 3:instruct. Esto constituye una evaluación basada en LLM, y la alineación observada con el proxy de GPT-4 es mixta a través de las métricas. Resultados: Las métricas basadas en preferencias (RMA, RWC y GWR) muestran evidencia de separación de grupos, reportadas con intervalos de confianza bootstrap e interpretadas como exploratorias debido a muestras pequeñas, mientras que las métricas orientadas a la robustez (CS y WCS) y la diversidad de razonamiento (DPR) capturan aspectos complementarios del rendimiento no reflejados en la tasa global de victorias. RMA y RWC exhiben correlaciones estadísticamente significativas, controladas por FDR, con el proxy de GPT-4, y el mapeo de correlaciones destaca la naturaleza complementaria y parcialmente ortogonal de las dimensiones de evaluación de PEARL. Originalidad: PEARL es el primer marco de evaluación de LLM que combina puntuación de múltiples rúbricas, métricas conscientes de la explicación, análisis de robustez y análisis de múltiples evaluadores de LLM en un único sistema extensible. Su diseño multidimensional apoya tanto la evaluación comparativa de alto nivel como la evaluación diagnóstica específica, ofreciendo una metodología rigurosa, transparente y versátil para investigadores, desarrolladores y educadores que trabajan con LLM en contextos de alta exigencia e instrucción.

Otros recursos que podrían interesarte

Temas Virtualpro