El impacto del equilibrio parcial de un conjunto de datos desequilibrado en el rendimiento de clasificación
Autores: Li, Qing; Zhao, Chang; He, Xintai; Chen, Kun; Wang, Runze
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
El impacto del equilibrio parcial de un conjunto de datos desequilibrado en el rendimiento de clasificación
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Desequilibrio
Rendimiento de clasificación
Equilibrio parcial
Categorías medias
Conjuntos de datos desequilibrados
Resultados experimentales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
El desequilibrio de los datos de red afecta seriamente el rendimiento de clasificación de los algoritmos. La mayoría de los estudios solo han utilizado una descripción general del desequilibrio de datos con poca exploración de los factores específicos que afectan el rendimiento de clasificación, lo que ha resultado en dificultades para proponer soluciones específicas. En este documento, encontramos que el impacto de las categorías intermedias en el rendimiento de clasificación no puede ser ignorado, y por lo tanto proponemos el concepto de equilibrio parcial, que consiste en el Número de Clases de Equilibrio Parcial (beta) y el Grado de Equilibrio de Muestras Parciales (). Combinado con la Pendiente Global (alfa), se establece un modelo parametrizado para describir la diferencia de conjuntos de datos desequilibrados. Se realizan experimentos en el Conjunto de Datos de Moore y el Conjunto de Datos CICIDS 2017. Los resultados de los experimentos en Random Forest, Decision Tree y Deep Neural Network muestran que el aumento es un paso beneficioso en la mejora del rendimiento de las clases minoritarias y de las clases en general. Cuando el de las categorías dominantes aumenta, el de las clases inferiores disminuye, lo que resulta en una disminución del rendimiento promedio de las clases minoritarias. Cuanto menor es, más cercano es el tamaño de muestra de las clases intermedias a las clases minoritarias, y mejor es el rendimiento promedio. Basándonos en las conclusiones, proponemos y verificamos algunas estrategias básicas mediante varios algoritmos clásicos.
Descripción
El desequilibrio de los datos de red afecta seriamente el rendimiento de clasificación de los algoritmos. La mayoría de los estudios solo han utilizado una descripción general del desequilibrio de datos con poca exploración de los factores específicos que afectan el rendimiento de clasificación, lo que ha resultado en dificultades para proponer soluciones específicas. En este documento, encontramos que el impacto de las categorías intermedias en el rendimiento de clasificación no puede ser ignorado, y por lo tanto proponemos el concepto de equilibrio parcial, que consiste en el Número de Clases de Equilibrio Parcial (beta) y el Grado de Equilibrio de Muestras Parciales (). Combinado con la Pendiente Global (alfa), se establece un modelo parametrizado para describir la diferencia de conjuntos de datos desequilibrados. Se realizan experimentos en el Conjunto de Datos de Moore y el Conjunto de Datos CICIDS 2017. Los resultados de los experimentos en Random Forest, Decision Tree y Deep Neural Network muestran que el aumento es un paso beneficioso en la mejora del rendimiento de las clases minoritarias y de las clases en general. Cuando el de las categorías dominantes aumenta, el de las clases inferiores disminuye, lo que resulta en una disminución del rendimiento promedio de las clases minoritarias. Cuanto menor es, más cercano es el tamaño de muestra de las clases intermedias a las clases minoritarias, y mejor es el rendimiento promedio. Basándonos en las conclusiones, proponemos y verificamos algunas estrategias básicas mediante varios algoritmos clásicos.