logo móvil
Contáctanos

GraderAssist: Un marco basado en grafos de múltiples LLM para una evaluación automatizada transparente y reproducible

Autores: Anghel, Catalin; Anghel, Andreea Alexandra; Pecheanu, Emilia; Cocu, Adina; Craciun, Marian Viorel; Iacobescu, Paul; Balau, Antonio Stefan; Andrei, Constantin Adrian

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

GraderAssist: Un marco basado en grafos de múltiples LLM para una evaluación automatizada transparente y reproducible


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Evaluación automatizada
Modelos de lenguaje grandes
GraderAssist
Guiado por rúbricas
Marco multi-LLM
Reproducibilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Antecedentes y objetivos: La evaluación automatizada de respuestas abiertas sigue siendo un desafío persistente, especialmente cuando se requieren consistencia, transparencia y reproducibilidad. Si bien los grandes modelos de lenguaje (LLMs) han mostrado promesas en la evaluación basada en rúbricas, su fiabilidad entre múltiples evaluadores sigue siendo incierta. La variabilidad en la puntuación, la retroalimentación y la adherencia a la rúbrica plantea preocupaciones sobre la interpretabilidad y la robustez del sistema. Este estudio presenta GraderAssist, un marco basado en grafos, guiado por rúbricas y multi-LLM diseñado para garantizar una evaluación automatizada transparente y reproducible. Métodos: GraderAssist evalúa un conjunto de datos de 220 respuestas a preguntas tanto técnicas como argumentativas, recopiladas de cursos de informática de pregrado. Seis LLMs de código abierto y GPT-4 (como referencia experta) puntuaron de manera independiente cada respuesta utilizando dos rúbricas predefinidas. Todas las salidas, incluidas puntuaciones, retroalimentación y metadatos, fueron analizadas, validadas y almacenadas en una base de datos de grafos Neo4j, lo que permite consultas estructuradas, trazabilidad y análisis longitudinal. Resultados: El análisis entre modelos reveló diferencias sistemáticas en el comportamiento de puntuación y generación de retroalimentación. Algunos modelos produjeron evaluaciones más generosas, mientras que otros se alinearon estrechamente con GPT-4. El análisis semántico utilizando embeddings de Sentence-BERT destacó estilos de retroalimentación distintivos y adherencia variable a la rúbrica. El acuerdo entre modelos fue más fuerte para criterios técnicos, pero divergió sustancialmente para tareas argumentativas. Originalidad: GraderAssist integra evaluación guiada por rúbricas, comparación entre múltiples modelos y almacenamiento basado en grafos en un pipeline unificado. Al enfatizar la reproducibilidad, la transparencia y el análisis detallado del comportamiento del evaluador, avanza en el diseño de sistemas de evaluación automatizada interpretables con aplicaciones en educación y más allá.

Otros recursos que podrían interesarte

Temas Virtualpro