Desbalanceo de datos en clasificación basado en Random-SMOTE mejorado y desviación estándar de características
Autores: Zhang, Ying; Deng, Li; Wei, Bo
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Desbalanceo de datos en clasificación basado en Random-SMOTE mejorado y desviación estándar de características
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Técnicas de sobremuestreo
Conjuntos de datos desequilibrados
Ruido
Sobreajuste
FSDR-SMOTE
Desviación estándar de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
Las técnicas de sobremuestreo son ampliamente utilizadas para reequilibrar conjuntos de datos desequilibrados. Sin embargo, la mayoría de los métodos de sobremuestreo pueden introducir ruido y límites difusos para la clasificación de conjuntos de datos, lo que lleva al fenómeno de sobreajuste. Para resolver este problema, proponemos un nuevo método (FSDR-SMOTE) basado en Random-SMOTE y Desviación Estándar de Características para reequilibrar conjuntos de datos desequilibrados. El método primero elimina muestras ruidosas basadas en el criterio de Tukey y luego calcula la desviación estándar de características reflejando el grado de discretización de datos para detectar la ubicación de la muestra, y clasifica las muestras en muestras de límite y muestras de seguridad. En segundo lugar, se emplea el algoritmo de agrupamiento K-means para dividir las muestras de la clase minoritaria en varios subgrupos. Dentro de cada subgrupo, se generan nuevas muestras basadas en muestras aleatorias, muestras de límite y el centro correspondiente del subgrupo. Los resultados experimentales muestran que el valor de evaluación promedio obtenido por FSDR-SMOTE es del 93.31% (93.16% y 86.53%) en cuanto a la medida F (G-mean y MCC) en los 20 conjuntos de datos de referencia seleccionados de la biblioteca de aprendizaje automático de UCI.
Descripción
Las técnicas de sobremuestreo son ampliamente utilizadas para reequilibrar conjuntos de datos desequilibrados. Sin embargo, la mayoría de los métodos de sobremuestreo pueden introducir ruido y límites difusos para la clasificación de conjuntos de datos, lo que lleva al fenómeno de sobreajuste. Para resolver este problema, proponemos un nuevo método (FSDR-SMOTE) basado en Random-SMOTE y Desviación Estándar de Características para reequilibrar conjuntos de datos desequilibrados. El método primero elimina muestras ruidosas basadas en el criterio de Tukey y luego calcula la desviación estándar de características reflejando el grado de discretización de datos para detectar la ubicación de la muestra, y clasifica las muestras en muestras de límite y muestras de seguridad. En segundo lugar, se emplea el algoritmo de agrupamiento K-means para dividir las muestras de la clase minoritaria en varios subgrupos. Dentro de cada subgrupo, se generan nuevas muestras basadas en muestras aleatorias, muestras de límite y el centro correspondiente del subgrupo. Los resultados experimentales muestran que el valor de evaluación promedio obtenido por FSDR-SMOTE es del 93.31% (93.16% y 86.53%) en cuanto a la medida F (G-mean y MCC) en los 20 conjuntos de datos de referencia seleccionados de la biblioteca de aprendizaje automático de UCI.