logo móvil
Contáctanos

El impacto del equilibrio parcial de un conjunto de datos desequilibrado en el rendimiento de clasificación

Autores: Li, Qing; Zhao, Chang; He, Xintai; Chen, Kun; Wang, Runze

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

El impacto del equilibrio parcial de un conjunto de datos desequilibrado en el rendimiento de clasificación


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Desequilibrio
Rendimiento de clasificación
Equilibrio parcial
Categorías medias
Conjuntos de datos desequilibrados
Resultados experimentales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
El desequilibrio de los datos de red afecta seriamente el rendimiento de clasificación de los algoritmos. La mayoría de los estudios solo han utilizado una descripción general del desequilibrio de datos con poca exploración de los factores específicos que afectan el rendimiento de clasificación, lo que ha resultado en dificultades para proponer soluciones específicas. En este documento, encontramos que el impacto de las categorías intermedias en el rendimiento de clasificación no puede ser ignorado, y por lo tanto proponemos el concepto de equilibrio parcial, que consiste en el Número de Clases de Equilibrio Parcial (beta) y el Grado de Equilibrio de Muestras Parciales (). Combinado con la Pendiente Global (alfa), se establece un modelo parametrizado para describir la diferencia de conjuntos de datos desequilibrados. Se realizan experimentos en el Conjunto de Datos de Moore y el Conjunto de Datos CICIDS 2017. Los resultados de los experimentos en Random Forest, Decision Tree y Deep Neural Network muestran que el aumento es un paso beneficioso en la mejora del rendimiento de las clases minoritarias y de las clases en general. Cuando el de las categorías dominantes aumenta, el de las clases inferiores disminuye, lo que resulta en una disminución del rendimiento promedio de las clases minoritarias. Cuanto menor es, más cercano es el tamaño de muestra de las clases intermedias a las clases minoritarias, y mejor es el rendimiento promedio. Basándonos en las conclusiones, proponemos y verificamos algunas estrategias básicas mediante varios algoritmos clásicos.

Otros recursos que podrían interesarte

Temas Virtualpro