Una comparación de métodos de submuestreo, sobremuestreo y SMOTE para abordar la clasificación desbalanceada en la minería de datos educativos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Una comparación de métodos de submuestreo, sobremuestreo y SMOTE para abordar la clasificación desbalanceada en la minería de datos educativos

Autores: Wongvorachan, Tarid; He, Surina; Bulut, Okan

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Una comparación de métodos de submuestreo, sobremuestreo y SMOTE para abordar la clasificación desbalanceada en la minería de datos educativos

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Minería de datos

Modelos predictivos

Problema de desequilibrio de clases

Técnicas de muestreo

Datos educativos

Técnica de remuestreo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La minería de datos educativos es capaz de producir aplicaciones útiles basadas en datos (por ejemplo, sistemas de alerta temprana en escuelas o la predicción del rendimiento académico de los estudiantes) basadas en modelos predictivos. Sin embargo, el problema del desequilibrio de clases en los conjuntos de datos educativos podría obstaculizar la precisión de los modelos predictivos, ya que muchos de estos modelos están diseñados bajo la suposición de que la clase predicha está equilibrada. Aunque estudios anteriores propusieron varios métodos para abordar el problema de la clase desequilibrada, la mayoría de ellos se centraron en los detalles técnicos de cómo mejorar cada técnica, mientras que solo unos pocos se enfocaron en el aspecto de la aplicación, especialmente para la aplicación de datos con diferentes ratios de desequilibrio. En este estudio, comparamos varias técnicas de muestreo para manejar los diferentes ratios del problema de desequilibrio de clases (es decir, clasificaciones moderadamente o extremadamente desequilibradas) utilizando el conjunto de datos del Estudio Longitudinal de Escuelas Secundarias de 2009. Para nuestra comparación, utilizamos el muestreo aleatorio por sobre-muestreo (ROS), el muestreo aleatorio por sub-muestreo (RUS) y la combinación de la técnica de sobre-muestreo de minorías sintéticas para nominal y continuo (SMOTE-NC) y RUS como una técnica de remuestreo híbrido. Utilizamos el Bosque Aleatorio como nuestro algoritmo de clasificación para evaluar los resultados de cada técnica de muestreo. Nuestros resultados muestran que el sobre-muestreo aleatorio para datos moderadamente desequilibrados y el remuestreo híbrido para datos extremadamente desequilibrados parecen funcionar mejor. Se discuten las implicaciones para las aplicaciones de minería de datos educativos y las sugerencias para futuras investigaciones.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro