Algoritmo de Sobremuestreo Basado en K-Means Mejorado y Distribución Gaussiana

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Algoritmo de Sobremuestreo Basado en K-Means Mejorado y Distribución Gaussiana

Autores: Xie, Wenhao; Huang, Xiao

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Algoritmo de Sobremuestreo Basado en K-Means Mejorado y Distribución Gaussiana

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Sobremuestreo

Agrupamiento

Algoritmo

Muestras minoritarias

Distribución gaussiana

Rendimiento de clasificación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El sobremuestreo es común y efectivo para resolver el problema de clasificación de datos desbalanceados. Los métodos tradicionales de sobremuestreo son propensos a generar muestras superpuestas o ruidosas. El agrupamiento puede aliviar efectivamente los problemas mencionados hasta cierto punto. Sin embargo, la calidad de los resultados del agrupamiento tiene un impacto significativo en el rendimiento final de la clasificación. Para abordar este problema, se propone en este artículo un algoritmo de sobremuestreo basado en el algoritmo de sobremuestreo de distribución gaussiana y el algoritmo de agrupamiento K-means que combina compacidad y separabilidad (CSKGO). El algoritmo primero utiliza el algoritmo de agrupamiento K-means, combinando compacidad y separabilidad para agrupar las muestras minoritarias, construye el índice de compacidad del clúster y el índice de separabilidad entre clústeres para obtener el número óptimo de clústeres y los resultados del agrupamiento, y obtiene las características de distribución local de las muestras minoritarias a través del agrupamiento. En segundo lugar, se asigna la proporción de muestreo para cada clúster en función de la compacidad de los resultados del agrupamiento para determinar el número de muestras para cada clúster en la clase minoritaria. Luego, se calculan los vectores medios y las matrices de covarianza de cada clúster, y se utiliza el algoritmo de sobremuestreo de distribución gaussiana para generar nuevas muestras que coincidan con la distribución de características de las verdaderas muestras minoritarias, que se combinan con las muestras mayoritarias para formar datos balanceados. Para verificar la efectividad del algoritmo propuesto, se seleccionaron 24 conjuntos de datos del Repositorio de la Universidad de California en Irvine (UCI), y se sobremuestrearon utilizando el algoritmo CSKGO propuesto en este artículo y otros algoritmos de sobremuestreo, respectivamente. Finalmente, estos conjuntos de datos fueron clasificados utilizando Random Forest, Support Vector Machine y K-Nearest Neighbor Classifiers. Los resultados indican que el algoritmo propuesto en este artículo tiene una mayor precisión, medida F, G-media y valores AUC, lo que puede mejorar efectivamente el rendimiento de clasificación de los conjuntos de datos desbalanceados.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro