Método de Calificación Automatizada de Envíos de Código en Python Usando Modelos de Lenguaje Grande y Aprendizaje Automático
Autores: Mahdaoui, Mariam; Nouh, Said; El Kasmi Alaoui, My Seddiq; Kandali, Khalid
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Método de Calificación Automatizada de Envíos de Código en Python Usando Modelos de Lenguaje Grande y Aprendizaje Automático
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Evaluación
Educación en programación
Metodología de calificación automatizada
Ejercicios de programación en Python
Modelos de aprendizaje automático
LLMs
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La evaluación es fundamental en la educación en programación; sin embargo, es un proceso laborioso y complicado, especialmente en contextos de aprendizaje extensos donde depende significativamente de los profesores humanos. Este documento presenta una metodología de calificación automatizada diseñada para evaluar ejercicios de programación en Python, produciendo tanto calificaciones continuas como discretas. La metodología incorpora GPT-4-Turbo, un robusto modelo de lenguaje grande, y modelos de aprendizaje automático seleccionados por el proceso automatizado de PyCaret. El Extra Trees Regressor demostró un rendimiento superior en la predicción de calificaciones continuas, con un Error Absoluto Medio (MAE) de 4.43 sobre 100 y un puntaje R2 de 0.83. El Clasificador de Bosques Aleatorios alcanzó las puntuaciones más altas para la clasificación de calificaciones discretas, logrando una precisión del 91% y un Kappa Ponderado Cuadrático de 0.84, lo que indica una concordancia sustancial con las categorías asignadas por humanos. Estos hallazgos subrayan la promesa de integrar LLMs y selección automatizada de modelos para facilitar una evaluación escalable, consistente y equitativa en la educación en programación, al tiempo que alivia sustancialmente la carga de trabajo de los evaluadores humanos.
Descripción
La evaluación es fundamental en la educación en programación; sin embargo, es un proceso laborioso y complicado, especialmente en contextos de aprendizaje extensos donde depende significativamente de los profesores humanos. Este documento presenta una metodología de calificación automatizada diseñada para evaluar ejercicios de programación en Python, produciendo tanto calificaciones continuas como discretas. La metodología incorpora GPT-4-Turbo, un robusto modelo de lenguaje grande, y modelos de aprendizaje automático seleccionados por el proceso automatizado de PyCaret. El Extra Trees Regressor demostró un rendimiento superior en la predicción de calificaciones continuas, con un Error Absoluto Medio (MAE) de 4.43 sobre 100 y un puntaje R2 de 0.83. El Clasificador de Bosques Aleatorios alcanzó las puntuaciones más altas para la clasificación de calificaciones discretas, logrando una precisión del 91% y un Kappa Ponderado Cuadrático de 0.84, lo que indica una concordancia sustancial con las categorías asignadas por humanos. Estos hallazgos subrayan la promesa de integrar LLMs y selección automatizada de modelos para facilitar una evaluación escalable, consistente y equitativa en la educación en programación, al tiempo que alivia sustancialmente la carga de trabajo de los evaluadores humanos.