logo móvil
Contáctanos

LLM como evaluador: Perspectivas prácticas de los modelos de lenguaje grande para la evaluación de respuestas cortas e informes

Autores: Byun, Grace; Rajwal, Swati; Choi, Jinho D.

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

LLM como evaluador: Perspectivas prácticas de los modelos de lenguaje grande para la evaluación de respuestas cortas e informes


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje grandes
Tareas educativas
Openai gpt-4o
Cuestionarios de respuesta corta
Informes de proyectos
Calificación automatizada

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los Modelos de Lenguaje Grande (LLMs) se están explorando cada vez más para tareas educativas como la calificación, sin embargo, su alineación con la evaluación humana en aulas reales sigue siendo poco examinada. En este estudio, investigamos la viabilidad de utilizar OpenAI GPT-4o para evaluar cuestionarios de respuesta corta e informes de proyectos en un curso de Lingüística Computacional de pregrado. Recopilamos respuestas de aproximadamente 50 estudiantes a través de cinco cuestionarios y recibimos informes de proyectos de 14 equipos. Las puntuaciones generadas por LLM se comparan con las evaluaciones humanas realizadas de manera independiente por los asistentes de enseñanza del curso (TAs). Nuestros resultados muestran que GPT-4o logra una fuerte correlación con los evaluadores humanos (hasta 0.98) y un acuerdo exacto en las puntuaciones en el 55% de los casos de cuestionarios. Para los informes de proyectos, también muestra una fuerte alineación general con la calificación humana, aunque presenta cierta variabilidad en la puntuación de respuestas técnicas y abiertas. Publicamos todo el código y los datos de muestra para apoyar la investigación adicional sobre LLMs en la evaluación educativa. Este trabajo destaca tanto el potencial como las limitaciones de los sistemas de calificación basados en LLM y contribuye a avanzar en la calificación automatizada en entornos académicos del mundo real.

Otros recursos que podrían interesarte

Temas Virtualpro