PEARL: Un marco de evaluación de LLM basado en rúbricas y múltiples métricas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

PEARL: Un marco de evaluación de LLM basado en rúbricas y múltiples métricas

Autores: Anghel, Catalin; Anghel, Andreea Alexandra; Pecheanu, Emilia; Craciun, Marian Viorel; Cocu, Adina; Niculita, Cristian

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

PEARL: Un marco de evaluación de LLM basado en rúbricas y múltiples métricas

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Evaluación de modelos de lenguaje grandes

Contextos pedagógicos y educativos

Marco de perlas

Rúbricas

Dimensiones de rendimiento

Métricas de evaluación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Antecedentes y objetivos: La evaluación de Modelos de Lenguaje Grande (LLMs) presenta dos desafíos interrelacionados: el problema general de evaluar el rendimiento del modelo en diversas tareas y el problema específico de utilizar los LLMs como evaluadores en contextos pedagógicos y educativos. Los enfoques existentes a menudo se basan en métricas únicas o métodos de preferencia opacos, que no logran capturar dimensiones críticas como la calidad de la explicación, la robustez y la diversidad argumentativa, atributos esenciales en entornos de instrucción. Este documento presenta PEARL, un nuevo marco concebido, operacionalizado y evaluado en el presente trabajo utilizando evaluadores basados en LLM, diseñado para proporcionar evaluaciones interpretables, reproducibles y pedagógicamente significativas a través de múltiples dimensiones de rendimiento. Métodos: PEARL integra tres rúbricas especializadas: Técnica, Argumentativa y Enfocada en la Explicación, que cubren aspectos como la precisión fáctica, la claridad, la completitud, la originalidad, la dialéctica y la utilidad explicativa. El marco define siete métricas complementarias: Conteo de Victorias de Rúbrica (RWC), Tasa Global de Victorias (GWR), Ventaja Media de Rúbrica (RMA), Dispersión de Consistencia (CS), Puntaje de Confianza de Victoria (WCS), Índice de Calidad de Explicación (EQI) y Tasa de Presencia Dialéctica (DPR). Evaluamos PEARL evaluando ocho LLMs ajustados a instrucciones de peso abierto a través de 51 indicaciones, con salidas puntuadas de manera independiente por GPT-4 y LLaMA 3:instruct. Esto constituye una evaluación basada en LLM, y la alineación observada con el proxy de GPT-4 es mixta a través de las métricas. Resultados: Las métricas basadas en preferencias (RMA, RWC y GWR) muestran evidencia de separación de grupos, reportadas con intervalos de confianza bootstrap e interpretadas como exploratorias debido a muestras pequeñas, mientras que las métricas orientadas a la robustez (CS y WCS) y la diversidad de razonamiento (DPR) capturan aspectos complementarios del rendimiento no reflejados en la tasa global de victorias. RMA y RWC exhiben correlaciones estadísticamente significativas, controladas por FDR, con el proxy de GPT-4, y el mapeo de correlaciones destaca la naturaleza complementaria y parcialmente ortogonal de las dimensiones de evaluación de PEARL. Originalidad: PEARL es el primer marco de evaluación de LLM que combina puntuación de múltiples rúbricas, métricas conscientes de la explicación, análisis de robustez y análisis de múltiples evaluadores de LLM en un único sistema extensible. Su diseño multidimensional apoya tanto la evaluación comparativa de alto nivel como la evaluación diagnóstica específica, ofreciendo una metodología rigurosa, transparente y versátil para investigadores, desarrolladores y educadores que trabajan con LLM en contextos de alta exigencia e instrucción.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro