logo móvil
Contáctanos

Un método para analizar el impacto en el rendimiento de datos binarios desequilibrados en modelos de aprendizaje automático

Autores: Zheng, Ming; Wang, Fei; Hu, Xiaowen; Miao, Yuhao; Cao, Huo; Tang, Mingjing

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Un método para analizar el impacto en el rendimiento de datos binarios desequilibrados en modelos de aprendizaje automático


Categoría

Matemáticas

Subcategoría

Análisis matemático

Palabras clave

Modelos de aprendizaje automático
Datos desequilibrados
Impacto en el rendimiento
Tasa de desequilibrio
Rendimiento de la clasificación
Aumento de datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 19

Citaciones: Sin citaciones


Descripción
Los modelos de aprendizaje automático pueden no ser capaces de aprender y predecir de manera efectiva a partir de datos desequilibrados en los campos de aprendizaje automático y minería de datos. Este estudio propuso un método para analizar el impacto en el rendimiento de datos binarios desequilibrados en los modelos de aprendizaje automático. Analiza sistemáticamente 1. la relación entre el rendimiento variable en los modelos de aprendizaje automático y la tasa de desequilibrio (IR); 2. la estabilidad del rendimiento de los modelos de aprendizaje automático en datos binarios desequilibrados. En el método propuesto, los algoritmos de aumento de datos desequilibrados están diseñados primero para obtener el conjunto de datos desequilibrados con IR gradualmente variable. Luego, para obtener resultados de clasificación más objetivos, se utiliza la métrica de evaluación AFG, media aritmética del área bajo la curva característica de operación del receptor (AUC), F-measure y G-mean para evaluar el rendimiento de clasificación de los modelos de aprendizaje automático. Finalmente, basado en AFG y el coeficiente de variación (), se propone un método de evaluación de estabilidad de rendimiento de los modelos de aprendizaje automático. Los experimentos de ocho modelos de aprendizaje automático ampliamente utilizados en 48 conjuntos de datos desequilibrados diferentes demuestran que el rendimiento de clasificación de los modelos de aprendizaje automático disminuye con el aumento de IR en los mismos datos desequilibrados. Mientras tanto, los rendimientos de clasificación de LR, DT y SVC son inestables, mientras que GNB, BNB, KNN, RF y GBDT son relativamente estables y no son susceptibles a datos desequilibrados. En particular, el BNB tiene el rendimiento de clasificación más estable. Las pruebas estadísticas post hoc de Friedman y Nemenyi también confirmaron este resultado. El método SMOTE se utiliza en el aumento de datos desequilibrados basado en sobremuestreo, y se necesita más investigación para determinar si otros métodos de sobremuestreo pueden obtener resultados consistentes. En el futuro, se debería utilizar un algoritmo de aumento de datos desequilibrados basado en submuestreo y muestreo híbrido para analizar el impacto en el rendimiento de datos binarios desequilibrados en los modelos de aprendizaje automático.

Otros recursos que podrían interesarte

Temas Virtualpro