GraderAssist: Un marco basado en grafos de múltiples LLM para una evaluación automatizada transparente y reproducible

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

GraderAssist: Un marco basado en grafos de múltiples LLM para una evaluación automatizada transparente y reproducible

Autores: Anghel, Catalin; Anghel, Andreea Alexandra; Pecheanu, Emilia; Cocu, Adina; Craciun, Marian Viorel; Iacobescu, Paul; Balau, Antonio Stefan; Andrei, Constantin Adrian

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

GraderAssist: Un marco basado en grafos de múltiples LLM para una evaluación automatizada transparente y reproducible

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Evaluación automatizada

Modelos de lenguaje grandes

GraderAssist

Guiado por rúbricas

Marco multi-LLM

Reproducibilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Antecedentes y objetivos: La evaluación automatizada de respuestas abiertas sigue siendo un desafío persistente, especialmente cuando se requieren consistencia, transparencia y reproducibilidad. Si bien los grandes modelos de lenguaje (LLMs) han mostrado promesas en la evaluación basada en rúbricas, su fiabilidad entre múltiples evaluadores sigue siendo incierta. La variabilidad en la puntuación, la retroalimentación y la adherencia a la rúbrica plantea preocupaciones sobre la interpretabilidad y la robustez del sistema. Este estudio presenta GraderAssist, un marco basado en grafos, guiado por rúbricas y multi-LLM diseñado para garantizar una evaluación automatizada transparente y reproducible. Métodos: GraderAssist evalúa un conjunto de datos de 220 respuestas a preguntas tanto técnicas como argumentativas, recopiladas de cursos de informática de pregrado. Seis LLMs de código abierto y GPT-4 (como referencia experta) puntuaron de manera independiente cada respuesta utilizando dos rúbricas predefinidas. Todas las salidas, incluidas puntuaciones, retroalimentación y metadatos, fueron analizadas, validadas y almacenadas en una base de datos de grafos Neo4j, lo que permite consultas estructuradas, trazabilidad y análisis longitudinal. Resultados: El análisis entre modelos reveló diferencias sistemáticas en el comportamiento de puntuación y generación de retroalimentación. Algunos modelos produjeron evaluaciones más generosas, mientras que otros se alinearon estrechamente con GPT-4. El análisis semántico utilizando embeddings de Sentence-BERT destacó estilos de retroalimentación distintivos y adherencia variable a la rúbrica. El acuerdo entre modelos fue más fuerte para criterios técnicos, pero divergió sustancialmente para tareas argumentativas. Originalidad: GraderAssist integra evaluación guiada por rúbricas, comparación entre múltiples modelos y almacenamiento basado en grafos en un pipeline unificado. Al enfatizar la reproducibilidad, la transparencia y el análisis detallado del comportamiento del evaluador, avanza en el diseño de sistemas de evaluación automatizada interpretables con aplicaciones en educación y más allá.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro