DTO-SMOTE: Sobremuestreo de Teselación de Delaunay para Conjuntos de Datos Desequilibrados
Autores: de Carvalho, Alexandre M.; Prati, Ronaldo C.
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
DTO-SMOTE: Sobremuestreo de Teselación de Delaunay para Conjuntos de Datos Desequilibrados
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Desafíos significativos
Aprendizaje automático
Datos desbalanceados
Método de preprocesamiento
DTO-SMOTE
Algoritmos de clasificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Uno de los desafíos significativos en el aprendizaje automático es la clasificación de datos desbalanceados. En muchas situaciones, los clasificadores estándar no pueden aprender a distinguir los ejemplos de la clase minoritaria de los demás. Dado que muchos problemas reales son desbalanceados, este problema se ha vuelto muy relevante y se ha estudiado en profundidad hoy en día. Este artículo presenta un nuevo método de preprocesamiento basado en la teselación de Delaunay y el algoritmo de preprocesamiento SMOTE (Técnica de Sobremuestreo de Minorías Sintéticas), que llamamos DTO-SMOTE (Sobremuestreo de SMOTE por Teselación de Delaunay). DTO-SMOTE construye una malla de simplices (en este artículo, utilizamos tetraedros) para crear ejemplos sintéticos. Comparamos los resultados con cinco algoritmos de preprocesamiento (GEOMETRIC-SMOTE, SVM-SMOTE, SMOTE-BORDERLINE-1, SMOTE-BORDERLINE-2 y SMOTE), ocho algoritmos de clasificación y 61 conjuntos de datos de clase binaria. Para algunos clasificadores, DTO-SMOTE tiene un rendimiento superior al de otros en términos de Área Bajo la Curva ROC (AUC), Media Geométrica (GEO) e Índice Generalizado de Precisión Balanceada (IBA).
Descripción
Uno de los desafíos significativos en el aprendizaje automático es la clasificación de datos desbalanceados. En muchas situaciones, los clasificadores estándar no pueden aprender a distinguir los ejemplos de la clase minoritaria de los demás. Dado que muchos problemas reales son desbalanceados, este problema se ha vuelto muy relevante y se ha estudiado en profundidad hoy en día. Este artículo presenta un nuevo método de preprocesamiento basado en la teselación de Delaunay y el algoritmo de preprocesamiento SMOTE (Técnica de Sobremuestreo de Minorías Sintéticas), que llamamos DTO-SMOTE (Sobremuestreo de SMOTE por Teselación de Delaunay). DTO-SMOTE construye una malla de simplices (en este artículo, utilizamos tetraedros) para crear ejemplos sintéticos. Comparamos los resultados con cinco algoritmos de preprocesamiento (GEOMETRIC-SMOTE, SVM-SMOTE, SMOTE-BORDERLINE-1, SMOTE-BORDERLINE-2 y SMOTE), ocho algoritmos de clasificación y 61 conjuntos de datos de clase binaria. Para algunos clasificadores, DTO-SMOTE tiene un rendimiento superior al de otros en términos de Área Bajo la Curva ROC (AUC), Media Geométrica (GEO) e Índice Generalizado de Precisión Balanceada (IBA).