Aprendizaje Desbalanceado Basado en Partición de Datos y SMOTE
Autores: Guo, Huaping; Zhou, Jun; Wu, Chang-An
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Aprendizaje Desbalanceado Basado en Partición de Datos y SMOTE
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Datos
Clasificación
Desbalanceado
SMOTE
Aprendizaje
Modelo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La clasificación de datos con una distribución de clases desequilibrada ha encontrado un inconveniente significativo en la mayoría de los métodos convencionales de aprendizaje de clasificación que asumen una distribución de clases relativamente equilibrada. Este artículo propone un nuevo método de clasificación basado en la partición de datos y SMOTE para el aprendizaje desequilibrado. El método propuesto se diferencia de los convencionales tanto en las etapas de aprendizaje como de predicción. Para la etapa de aprendizaje, el método propuesto utiliza los siguientes tres pasos para aprender un modelo orientado al desequilibrio de clases: (1) particionar la clase mayoritaria en varios clústeres utilizando métodos de partición de datos como K-Means, (2) construir un nuevo conjunto de entrenamiento utilizando SMOTE en cada conjunto de datos obtenido al fusionar cada clúster con la clase minoritaria, y (3) aprender un modelo de clasificación en cada conjunto de entrenamiento utilizando métodos convencionales de aprendizaje de clasificación, incluyendo árboles de decisión, SVM y redes neuronales. Por lo tanto, se construye un repositorio de clasificadores que consiste en varios modelos de clasificación. Con respecto a la etapa de predicción, para un ejemplo dado que se va a clasificar, el método propuesto utiliza el modelo de partición construido en la etapa de aprendizaje para seleccionar un modelo del repositorio de clasificadores para predecir el ejemplo. Experimentos exhaustivos en conjuntos de datos de KEEL muestran que el método propuesto supera a algunos otros métodos existentes en medidas de evaluación de recall, g-mean, f-measure y AUC.
Descripción
La clasificación de datos con una distribución de clases desequilibrada ha encontrado un inconveniente significativo en la mayoría de los métodos convencionales de aprendizaje de clasificación que asumen una distribución de clases relativamente equilibrada. Este artículo propone un nuevo método de clasificación basado en la partición de datos y SMOTE para el aprendizaje desequilibrado. El método propuesto se diferencia de los convencionales tanto en las etapas de aprendizaje como de predicción. Para la etapa de aprendizaje, el método propuesto utiliza los siguientes tres pasos para aprender un modelo orientado al desequilibrio de clases: (1) particionar la clase mayoritaria en varios clústeres utilizando métodos de partición de datos como K-Means, (2) construir un nuevo conjunto de entrenamiento utilizando SMOTE en cada conjunto de datos obtenido al fusionar cada clúster con la clase minoritaria, y (3) aprender un modelo de clasificación en cada conjunto de entrenamiento utilizando métodos convencionales de aprendizaje de clasificación, incluyendo árboles de decisión, SVM y redes neuronales. Por lo tanto, se construye un repositorio de clasificadores que consiste en varios modelos de clasificación. Con respecto a la etapa de predicción, para un ejemplo dado que se va a clasificar, el método propuesto utiliza el modelo de partición construido en la etapa de aprendizaje para seleccionar un modelo del repositorio de clasificadores para predecir el ejemplo. Experimentos exhaustivos en conjuntos de datos de KEEL muestran que el método propuesto supera a algunos otros métodos existentes en medidas de evaluación de recall, g-mean, f-measure y AUC.