Un método para analizar el impacto en el rendimiento de datos binarios desequilibrados en modelos de aprendizaje automático
Autores: Zheng, Ming; Wang, Fei; Hu, Xiaowen; Miao, Yuhao; Cao, Huo; Tang, Mingjing
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un método para analizar el impacto en el rendimiento de datos binarios desequilibrados en modelos de aprendizaje automático
Categoría
Matemáticas
Subcategoría
Análisis matemático
Palabras clave
Modelos de aprendizaje automático
Datos desequilibrados
Impacto en el rendimiento
Tasa de desequilibrio
Rendimiento de la clasificación
Aumento de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
Los modelos de aprendizaje automático pueden no ser capaces de aprender y predecir de manera efectiva a partir de datos desequilibrados en los campos de aprendizaje automático y minería de datos. Este estudio propuso un método para analizar el impacto en el rendimiento de datos binarios desequilibrados en los modelos de aprendizaje automático. Analiza sistemáticamente 1. la relación entre el rendimiento variable en los modelos de aprendizaje automático y la tasa de desequilibrio (IR); 2. la estabilidad del rendimiento de los modelos de aprendizaje automático en datos binarios desequilibrados. En el método propuesto, los algoritmos de aumento de datos desequilibrados están diseñados primero para obtener el conjunto de datos desequilibrados con IR gradualmente variable. Luego, para obtener resultados de clasificación más objetivos, se utiliza la métrica de evaluación AFG, media aritmética del área bajo la curva característica de operación del receptor (AUC), F-measure y G-mean para evaluar el rendimiento de clasificación de los modelos de aprendizaje automático. Finalmente, basado en AFG y el coeficiente de variación (), se propone un método de evaluación de estabilidad de rendimiento de los modelos de aprendizaje automático. Los experimentos de ocho modelos de aprendizaje automático ampliamente utilizados en 48 conjuntos de datos desequilibrados diferentes demuestran que el rendimiento de clasificación de los modelos de aprendizaje automático disminuye con el aumento de IR en los mismos datos desequilibrados. Mientras tanto, los rendimientos de clasificación de LR, DT y SVC son inestables, mientras que GNB, BNB, KNN, RF y GBDT son relativamente estables y no son susceptibles a datos desequilibrados. En particular, el BNB tiene el rendimiento de clasificación más estable. Las pruebas estadísticas post hoc de Friedman y Nemenyi también confirmaron este resultado. El método SMOTE se utiliza en el aumento de datos desequilibrados basado en sobremuestreo, y se necesita más investigación para determinar si otros métodos de sobremuestreo pueden obtener resultados consistentes. En el futuro, se debería utilizar un algoritmo de aumento de datos desequilibrados basado en submuestreo y muestreo híbrido para analizar el impacto en el rendimiento de datos binarios desequilibrados en los modelos de aprendizaje automático.
Descripción
Los modelos de aprendizaje automático pueden no ser capaces de aprender y predecir de manera efectiva a partir de datos desequilibrados en los campos de aprendizaje automático y minería de datos. Este estudio propuso un método para analizar el impacto en el rendimiento de datos binarios desequilibrados en los modelos de aprendizaje automático. Analiza sistemáticamente 1. la relación entre el rendimiento variable en los modelos de aprendizaje automático y la tasa de desequilibrio (IR); 2. la estabilidad del rendimiento de los modelos de aprendizaje automático en datos binarios desequilibrados. En el método propuesto, los algoritmos de aumento de datos desequilibrados están diseñados primero para obtener el conjunto de datos desequilibrados con IR gradualmente variable. Luego, para obtener resultados de clasificación más objetivos, se utiliza la métrica de evaluación AFG, media aritmética del área bajo la curva característica de operación del receptor (AUC), F-measure y G-mean para evaluar el rendimiento de clasificación de los modelos de aprendizaje automático. Finalmente, basado en AFG y el coeficiente de variación (), se propone un método de evaluación de estabilidad de rendimiento de los modelos de aprendizaje automático. Los experimentos de ocho modelos de aprendizaje automático ampliamente utilizados en 48 conjuntos de datos desequilibrados diferentes demuestran que el rendimiento de clasificación de los modelos de aprendizaje automático disminuye con el aumento de IR en los mismos datos desequilibrados. Mientras tanto, los rendimientos de clasificación de LR, DT y SVC son inestables, mientras que GNB, BNB, KNN, RF y GBDT son relativamente estables y no son susceptibles a datos desequilibrados. En particular, el BNB tiene el rendimiento de clasificación más estable. Las pruebas estadísticas post hoc de Friedman y Nemenyi también confirmaron este resultado. El método SMOTE se utiliza en el aumento de datos desequilibrados basado en sobremuestreo, y se necesita más investigación para determinar si otros métodos de sobremuestreo pueden obtener resultados consistentes. En el futuro, se debería utilizar un algoritmo de aumento de datos desequilibrados basado en submuestreo y muestreo híbrido para analizar el impacto en el rendimiento de datos binarios desequilibrados en los modelos de aprendizaje automático.