LLM como evaluador: Perspectivas prácticas de los modelos de lenguaje grande para la evaluación de respuestas cortas e informes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

LLM como evaluador: Perspectivas prácticas de los modelos de lenguaje grande para la evaluación de respuestas cortas e informes

Autores: Byun, Grace; Rajwal, Swati; Choi, Jinho D.

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

LLM como evaluador: Perspectivas prácticas de los modelos de lenguaje grande para la evaluación de respuestas cortas e informes

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje grandes

Tareas educativas

Openai gpt-4o

Cuestionarios de respuesta corta

Informes de proyectos

Calificación automatizada

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los Modelos de Lenguaje Grande (LLMs) se están explorando cada vez más para tareas educativas como la calificación, sin embargo, su alineación con la evaluación humana en aulas reales sigue siendo poco examinada. En este estudio, investigamos la viabilidad de utilizar OpenAI GPT-4o para evaluar cuestionarios de respuesta corta e informes de proyectos en un curso de Lingüística Computacional de pregrado. Recopilamos respuestas de aproximadamente 50 estudiantes a través de cinco cuestionarios y recibimos informes de proyectos de 14 equipos. Las puntuaciones generadas por LLM se comparan con las evaluaciones humanas realizadas de manera independiente por los asistentes de enseñanza del curso (TAs). Nuestros resultados muestran que GPT-4o logra una fuerte correlación con los evaluadores humanos (hasta 0.98) y un acuerdo exacto en las puntuaciones en el 55% de los casos de cuestionarios. Para los informes de proyectos, también muestra una fuerte alineación general con la calificación humana, aunque presenta cierta variabilidad en la puntuación de respuestas técnicas y abiertas. Publicamos todo el código y los datos de muestra para apoyar la investigación adicional sobre LLMs en la evaluación educativa. Este trabajo destaca tanto el potencial como las limitaciones de los sistemas de calificación basados en LLM y contribuye a avanzar en la calificación automatizada en entornos académicos del mundo real.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro