Una comparación de métodos de submuestreo, sobremuestreo y SMOTE para abordar la clasificación desbalanceada en la minería de datos educativos
Autores: Wongvorachan, Tarid; He, Surina; Bulut, Okan
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Una comparación de métodos de submuestreo, sobremuestreo y SMOTE para abordar la clasificación desbalanceada en la minería de datos educativos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Minería de datos
Modelos predictivos
Problema de desequilibrio de clases
Técnicas de muestreo
Datos educativos
Técnica de remuestreo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La minería de datos educativos es capaz de producir aplicaciones útiles basadas en datos (por ejemplo, sistemas de alerta temprana en escuelas o la predicción del rendimiento académico de los estudiantes) basadas en modelos predictivos. Sin embargo, el problema del desequilibrio de clases en los conjuntos de datos educativos podría obstaculizar la precisión de los modelos predictivos, ya que muchos de estos modelos están diseñados bajo la suposición de que la clase predicha está equilibrada. Aunque estudios anteriores propusieron varios métodos para abordar el problema de la clase desequilibrada, la mayoría de ellos se centraron en los detalles técnicos de cómo mejorar cada técnica, mientras que solo unos pocos se enfocaron en el aspecto de la aplicación, especialmente para la aplicación de datos con diferentes ratios de desequilibrio. En este estudio, comparamos varias técnicas de muestreo para manejar los diferentes ratios del problema de desequilibrio de clases (es decir, clasificaciones moderadamente o extremadamente desequilibradas) utilizando el conjunto de datos del Estudio Longitudinal de Escuelas Secundarias de 2009. Para nuestra comparación, utilizamos el muestreo aleatorio por sobre-muestreo (ROS), el muestreo aleatorio por sub-muestreo (RUS) y la combinación de la técnica de sobre-muestreo de minorías sintéticas para nominal y continuo (SMOTE-NC) y RUS como una técnica de remuestreo híbrido. Utilizamos el Bosque Aleatorio como nuestro algoritmo de clasificación para evaluar los resultados de cada técnica de muestreo. Nuestros resultados muestran que el sobre-muestreo aleatorio para datos moderadamente desequilibrados y el remuestreo híbrido para datos extremadamente desequilibrados parecen funcionar mejor. Se discuten las implicaciones para las aplicaciones de minería de datos educativos y las sugerencias para futuras investigaciones.
Descripción
La minería de datos educativos es capaz de producir aplicaciones útiles basadas en datos (por ejemplo, sistemas de alerta temprana en escuelas o la predicción del rendimiento académico de los estudiantes) basadas en modelos predictivos. Sin embargo, el problema del desequilibrio de clases en los conjuntos de datos educativos podría obstaculizar la precisión de los modelos predictivos, ya que muchos de estos modelos están diseñados bajo la suposición de que la clase predicha está equilibrada. Aunque estudios anteriores propusieron varios métodos para abordar el problema de la clase desequilibrada, la mayoría de ellos se centraron en los detalles técnicos de cómo mejorar cada técnica, mientras que solo unos pocos se enfocaron en el aspecto de la aplicación, especialmente para la aplicación de datos con diferentes ratios de desequilibrio. En este estudio, comparamos varias técnicas de muestreo para manejar los diferentes ratios del problema de desequilibrio de clases (es decir, clasificaciones moderadamente o extremadamente desequilibradas) utilizando el conjunto de datos del Estudio Longitudinal de Escuelas Secundarias de 2009. Para nuestra comparación, utilizamos el muestreo aleatorio por sobre-muestreo (ROS), el muestreo aleatorio por sub-muestreo (RUS) y la combinación de la técnica de sobre-muestreo de minorías sintéticas para nominal y continuo (SMOTE-NC) y RUS como una técnica de remuestreo híbrido. Utilizamos el Bosque Aleatorio como nuestro algoritmo de clasificación para evaluar los resultados de cada técnica de muestreo. Nuestros resultados muestran que el sobre-muestreo aleatorio para datos moderadamente desequilibrados y el remuestreo híbrido para datos extremadamente desequilibrados parecen funcionar mejor. Se discuten las implicaciones para las aplicaciones de minería de datos educativos y las sugerencias para futuras investigaciones.