logo móvil
Contáctanos

Una comparación de métodos de submuestreo, sobremuestreo y SMOTE para abordar la clasificación desbalanceada en la minería de datos educativos

Autores: Wongvorachan, Tarid; He, Surina; Bulut, Okan

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Una comparación de métodos de submuestreo, sobremuestreo y SMOTE para abordar la clasificación desbalanceada en la minería de datos educativos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Minería de datos
Modelos predictivos
Problema de desequilibrio de clases
Técnicas de muestreo
Datos educativos
Técnica de remuestreo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La minería de datos educativos es capaz de producir aplicaciones útiles basadas en datos (por ejemplo, sistemas de alerta temprana en escuelas o la predicción del rendimiento académico de los estudiantes) basadas en modelos predictivos. Sin embargo, el problema del desequilibrio de clases en los conjuntos de datos educativos podría obstaculizar la precisión de los modelos predictivos, ya que muchos de estos modelos están diseñados bajo la suposición de que la clase predicha está equilibrada. Aunque estudios anteriores propusieron varios métodos para abordar el problema de la clase desequilibrada, la mayoría de ellos se centraron en los detalles técnicos de cómo mejorar cada técnica, mientras que solo unos pocos se enfocaron en el aspecto de la aplicación, especialmente para la aplicación de datos con diferentes ratios de desequilibrio. En este estudio, comparamos varias técnicas de muestreo para manejar los diferentes ratios del problema de desequilibrio de clases (es decir, clasificaciones moderadamente o extremadamente desequilibradas) utilizando el conjunto de datos del Estudio Longitudinal de Escuelas Secundarias de 2009. Para nuestra comparación, utilizamos el muestreo aleatorio por sobre-muestreo (ROS), el muestreo aleatorio por sub-muestreo (RUS) y la combinación de la técnica de sobre-muestreo de minorías sintéticas para nominal y continuo (SMOTE-NC) y RUS como una técnica de remuestreo híbrido. Utilizamos el Bosque Aleatorio como nuestro algoritmo de clasificación para evaluar los resultados de cada técnica de muestreo. Nuestros resultados muestran que el sobre-muestreo aleatorio para datos moderadamente desequilibrados y el remuestreo híbrido para datos extremadamente desequilibrados parecen funcionar mejor. Se discuten las implicaciones para las aplicaciones de minería de datos educativos y las sugerencias para futuras investigaciones.

Otros recursos que podrían interesarte

Temas Virtualpro