Un método para analizar el impacto en el rendimiento de datos binarios desequilibrados en modelos de aprendizaje automático

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un método para analizar el impacto en el rendimiento de datos binarios desequilibrados en modelos de aprendizaje automático

Autores: Zheng, Ming; Wang, Fei; Hu, Xiaowen; Miao, Yuhao; Cao, Huo; Tang, Mingjing

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Un método para analizar el impacto en el rendimiento de datos binarios desequilibrados en modelos de aprendizaje automático

Categoría

Matemáticas

Subcategoría

Análisis matemático

Palabras clave

Modelos de aprendizaje automático

Datos desequilibrados

Impacto en el rendimiento

Tasa de desequilibrio

Rendimiento de la clasificación

Aumento de datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 19

Citaciones: Sin citaciones

Los modelos de aprendizaje automático pueden no ser capaces de aprender y predecir de manera efectiva a partir de datos desequilibrados en los campos de aprendizaje automático y minería de datos. Este estudio propuso un método para analizar el impacto en el rendimiento de datos binarios desequilibrados en los modelos de aprendizaje automático. Analiza sistemáticamente 1. la relación entre el rendimiento variable en los modelos de aprendizaje automático y la tasa de desequilibrio (IR); 2. la estabilidad del rendimiento de los modelos de aprendizaje automático en datos binarios desequilibrados. En el método propuesto, los algoritmos de aumento de datos desequilibrados están diseñados primero para obtener el conjunto de datos desequilibrados con IR gradualmente variable. Luego, para obtener resultados de clasificación más objetivos, se utiliza la métrica de evaluación AFG, media aritmética del área bajo la curva característica de operación del receptor (AUC), F-measure y G-mean para evaluar el rendimiento de clasificación de los modelos de aprendizaje automático. Finalmente, basado en AFG y el coeficiente de variación (), se propone un método de evaluación de estabilidad de rendimiento de los modelos de aprendizaje automático. Los experimentos de ocho modelos de aprendizaje automático ampliamente utilizados en 48 conjuntos de datos desequilibrados diferentes demuestran que el rendimiento de clasificación de los modelos de aprendizaje automático disminuye con el aumento de IR en los mismos datos desequilibrados. Mientras tanto, los rendimientos de clasificación de LR, DT y SVC son inestables, mientras que GNB, BNB, KNN, RF y GBDT son relativamente estables y no son susceptibles a datos desequilibrados. En particular, el BNB tiene el rendimiento de clasificación más estable. Las pruebas estadísticas post hoc de Friedman y Nemenyi también confirmaron este resultado. El método SMOTE se utiliza en el aumento de datos desequilibrados basado en sobremuestreo, y se necesita más investigación para determinar si otros métodos de sobremuestreo pueden obtener resultados consistentes. En el futuro, se debería utilizar un algoritmo de aumento de datos desequilibrados basado en submuestreo y muestreo híbrido para analizar el impacto en el rendimiento de datos binarios desequilibrados en los modelos de aprendizaje automático.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro