¿qué tan lejos hemos avanzado en los métodos de muestreo para la clasificación de datos desequilibrados? un estudio empírico
Autores: Sun, Zhongbin; Zhang, Jingqi; Zhu, Xiaoyan; Xu, Donghong
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
¿qué tan lejos hemos avanzado en los métodos de muestreo para la clasificación de datos desequilibrados? un estudio empírico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Datos desequilibrados
Minería de datos
Métodos de muestreo
Algoritmos de clasificación
Conjuntos de datos binarios
Medidas de evaluación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 44
Citaciones: Sin citaciones
Los datos desequilibrados son ubicuos en muchas aplicaciones del mundo real y han atraído una cantidad significativa de atención en el campo de la minería de datos. Se han propuesto una variedad de métodos para la clasificación de datos desequilibrados, y los métodos de muestreo de datos son más prevalentes debido a su independencia de los algoritmos de clasificación. Sin embargo, debido al creciente número de métodos de muestreo, no hay consenso sobre cuál método de muestreo funciona mejor, y se han obtenido conclusiones contradictorias. Por lo tanto, en el presente estudio, realizamos una extensa comparación de 16 métodos de muestreo diferentes con cuatro algoritmos de clasificación populares, utilizando 75 conjuntos de datos binarios desequilibrados de varios dominios de aplicación diferentes. Además, se emplearon cuatro medidas ampliamente utilizadas para evaluar el rendimiento de clasificación correspondiente. Los resultados experimentales mostraron que ninguno de los métodos de muestreo empleados tuvo el mejor rendimiento de manera estable en todos los algoritmos de clasificación y medidas de evaluación utilizadas. Además, también encontramos que el rendimiento de los diferentes métodos de muestreo generalmente se veía afectado por los algoritmos de clasificación empleados. Por lo tanto, es importante que los practicantes e investigadores seleccionen simultáneamente métodos de muestreo apropiados y algoritmos de clasificación, para manejar los problemas de datos desequilibrados en cuestión.
Descripción
Los datos desequilibrados son ubicuos en muchas aplicaciones del mundo real y han atraído una cantidad significativa de atención en el campo de la minería de datos. Se han propuesto una variedad de métodos para la clasificación de datos desequilibrados, y los métodos de muestreo de datos son más prevalentes debido a su independencia de los algoritmos de clasificación. Sin embargo, debido al creciente número de métodos de muestreo, no hay consenso sobre cuál método de muestreo funciona mejor, y se han obtenido conclusiones contradictorias. Por lo tanto, en el presente estudio, realizamos una extensa comparación de 16 métodos de muestreo diferentes con cuatro algoritmos de clasificación populares, utilizando 75 conjuntos de datos binarios desequilibrados de varios dominios de aplicación diferentes. Además, se emplearon cuatro medidas ampliamente utilizadas para evaluar el rendimiento de clasificación correspondiente. Los resultados experimentales mostraron que ninguno de los métodos de muestreo empleados tuvo el mejor rendimiento de manera estable en todos los algoritmos de clasificación y medidas de evaluación utilizadas. Además, también encontramos que el rendimiento de los diferentes métodos de muestreo generalmente se veía afectado por los algoritmos de clasificación empleados. Por lo tanto, es importante que los practicantes e investigadores seleccionen simultáneamente métodos de muestreo apropiados y algoritmos de clasificación, para manejar los problemas de datos desequilibrados en cuestión.