Algoritmo de Sobremuestreo Basado en K-Means Mejorado y Distribución Gaussiana
Autores: Xie, Wenhao; Huang, Xiao
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Algoritmo de Sobremuestreo Basado en K-Means Mejorado y Distribución Gaussiana
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Sobremuestreo
Agrupamiento
Algoritmo
Muestras minoritarias
Distribución gaussiana
Rendimiento de clasificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El sobremuestreo es común y efectivo para resolver el problema de clasificación de datos desbalanceados. Los métodos tradicionales de sobremuestreo son propensos a generar muestras superpuestas o ruidosas. El agrupamiento puede aliviar efectivamente los problemas mencionados hasta cierto punto. Sin embargo, la calidad de los resultados del agrupamiento tiene un impacto significativo en el rendimiento final de la clasificación. Para abordar este problema, se propone en este artículo un algoritmo de sobremuestreo basado en el algoritmo de sobremuestreo de distribución gaussiana y el algoritmo de agrupamiento K-means que combina compacidad y separabilidad (CSKGO). El algoritmo primero utiliza el algoritmo de agrupamiento K-means, combinando compacidad y separabilidad para agrupar las muestras minoritarias, construye el índice de compacidad del clúster y el índice de separabilidad entre clústeres para obtener el número óptimo de clústeres y los resultados del agrupamiento, y obtiene las características de distribución local de las muestras minoritarias a través del agrupamiento. En segundo lugar, se asigna la proporción de muestreo para cada clúster en función de la compacidad de los resultados del agrupamiento para determinar el número de muestras para cada clúster en la clase minoritaria. Luego, se calculan los vectores medios y las matrices de covarianza de cada clúster, y se utiliza el algoritmo de sobremuestreo de distribución gaussiana para generar nuevas muestras que coincidan con la distribución de características de las verdaderas muestras minoritarias, que se combinan con las muestras mayoritarias para formar datos balanceados. Para verificar la efectividad del algoritmo propuesto, se seleccionaron 24 conjuntos de datos del Repositorio de la Universidad de California en Irvine (UCI), y se sobremuestrearon utilizando el algoritmo CSKGO propuesto en este artículo y otros algoritmos de sobremuestreo, respectivamente. Finalmente, estos conjuntos de datos fueron clasificados utilizando Random Forest, Support Vector Machine y K-Nearest Neighbor Classifiers. Los resultados indican que el algoritmo propuesto en este artículo tiene una mayor precisión, medida F, G-media y valores AUC, lo que puede mejorar efectivamente el rendimiento de clasificación de los conjuntos de datos desbalanceados.
Descripción
El sobremuestreo es común y efectivo para resolver el problema de clasificación de datos desbalanceados. Los métodos tradicionales de sobremuestreo son propensos a generar muestras superpuestas o ruidosas. El agrupamiento puede aliviar efectivamente los problemas mencionados hasta cierto punto. Sin embargo, la calidad de los resultados del agrupamiento tiene un impacto significativo en el rendimiento final de la clasificación. Para abordar este problema, se propone en este artículo un algoritmo de sobremuestreo basado en el algoritmo de sobremuestreo de distribución gaussiana y el algoritmo de agrupamiento K-means que combina compacidad y separabilidad (CSKGO). El algoritmo primero utiliza el algoritmo de agrupamiento K-means, combinando compacidad y separabilidad para agrupar las muestras minoritarias, construye el índice de compacidad del clúster y el índice de separabilidad entre clústeres para obtener el número óptimo de clústeres y los resultados del agrupamiento, y obtiene las características de distribución local de las muestras minoritarias a través del agrupamiento. En segundo lugar, se asigna la proporción de muestreo para cada clúster en función de la compacidad de los resultados del agrupamiento para determinar el número de muestras para cada clúster en la clase minoritaria. Luego, se calculan los vectores medios y las matrices de covarianza de cada clúster, y se utiliza el algoritmo de sobremuestreo de distribución gaussiana para generar nuevas muestras que coincidan con la distribución de características de las verdaderas muestras minoritarias, que se combinan con las muestras mayoritarias para formar datos balanceados. Para verificar la efectividad del algoritmo propuesto, se seleccionaron 24 conjuntos de datos del Repositorio de la Universidad de California en Irvine (UCI), y se sobremuestrearon utilizando el algoritmo CSKGO propuesto en este artículo y otros algoritmos de sobremuestreo, respectivamente. Finalmente, estos conjuntos de datos fueron clasificados utilizando Random Forest, Support Vector Machine y K-Nearest Neighbor Classifiers. Los resultados indican que el algoritmo propuesto en este artículo tiene una mayor precisión, medida F, G-media y valores AUC, lo que puede mejorar efectivamente el rendimiento de clasificación de los conjuntos de datos desbalanceados.