En desarrollar modelos genéricos para predecir resultados de estudiantes en la minería de datos educativos
Autores: Ramaswami, Gomathy; Susnjak, Teo; Mathrani, Anuradha
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
En desarrollar modelos genéricos para predecir resultados de estudiantes en la minería de datos educativos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Rendimiento académico
Estudiantes
Modelos de predicción
Estudiantes en riesgo
Requisitos del curso
Algoritmo CatBoost
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
El bajo rendimiento académico de los estudiantes es una preocupación en el sector educativo, especialmente si conduce a que los estudiantes no puedan cumplir con los requisitos mínimos del curso. Sin embargo, con la predicción oportuna del rendimiento de los estudiantes, los educadores pueden detectar a los estudiantes en riesgo, lo que permite intervenciones tempranas para apoyar a estos estudiantes en superar sus dificultades de aprendizaje. Sin embargo, la mayoría de los estudios han tomado el enfoque de desarrollar modelos individuales que se centran en un solo curso al desarrollar modelos de predicción. Estos modelos están adaptados a atributos específicos de cada curso entre un conjunto muy diverso de posibilidades. Aunque este enfoque puede producir modelos precisos en algunos casos, esta estrategia está asociada con limitaciones. En muchos casos, puede ocurrir sobreajuste cuando los datos del curso son escasos o cuando se crean nuevos cursos. Además, mantener una gran cantidad de modelos por curso es una carga significativa. Este problema puede abordarse desarrollando un modelo predictivo genérico y agnóstico al curso que capture patrones más abstractos y pueda operar en todos los cursos, independientemente de sus diferencias. Este estudio demuestra cómo se puede desarrollar un modelo predictivo genérico que identifica a los estudiantes en riesgo en una amplia variedad de cursos. Se realizaron experimentos utilizando una variedad de algoritmos, con el modelo genérico produciendo una precisión efectiva. Los resultados mostraron que el algoritmo CatBoost tuvo el mejor desempeño en nuestro conjunto de datos en cuanto a la medida F, la curva ROC (característica operativa del receptor) y las puntuaciones de AUC; por lo tanto, es un excelente algoritmo candidato para proporcionar soluciones en este dominio dadas sus capacidades para manejar de manera fluida datos categóricos y faltantes, que son frecuentemente una característica en conjuntos de datos educativos.
Descripción
El bajo rendimiento académico de los estudiantes es una preocupación en el sector educativo, especialmente si conduce a que los estudiantes no puedan cumplir con los requisitos mínimos del curso. Sin embargo, con la predicción oportuna del rendimiento de los estudiantes, los educadores pueden detectar a los estudiantes en riesgo, lo que permite intervenciones tempranas para apoyar a estos estudiantes en superar sus dificultades de aprendizaje. Sin embargo, la mayoría de los estudios han tomado el enfoque de desarrollar modelos individuales que se centran en un solo curso al desarrollar modelos de predicción. Estos modelos están adaptados a atributos específicos de cada curso entre un conjunto muy diverso de posibilidades. Aunque este enfoque puede producir modelos precisos en algunos casos, esta estrategia está asociada con limitaciones. En muchos casos, puede ocurrir sobreajuste cuando los datos del curso son escasos o cuando se crean nuevos cursos. Además, mantener una gran cantidad de modelos por curso es una carga significativa. Este problema puede abordarse desarrollando un modelo predictivo genérico y agnóstico al curso que capture patrones más abstractos y pueda operar en todos los cursos, independientemente de sus diferencias. Este estudio demuestra cómo se puede desarrollar un modelo predictivo genérico que identifica a los estudiantes en riesgo en una amplia variedad de cursos. Se realizaron experimentos utilizando una variedad de algoritmos, con el modelo genérico produciendo una precisión efectiva. Los resultados mostraron que el algoritmo CatBoost tuvo el mejor desempeño en nuestro conjunto de datos en cuanto a la medida F, la curva ROC (característica operativa del receptor) y las puntuaciones de AUC; por lo tanto, es un excelente algoritmo candidato para proporcionar soluciones en este dominio dadas sus capacidades para manejar de manera fluida datos categóricos y faltantes, que son frecuentemente una característica en conjuntos de datos educativos.