Tres vías de agrupamiento en conjunto basadas en la teoría de perturbación de muestras
Autores: Fan, Jiachen; Wang, Xiaoxiao; Wu, Tingfeng; Zhu, Jin; Wang, Pingxin
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Tres vías de agrupamiento en conjunto basadas en la teoría de perturbación de muestras
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Tipo de datos
Incertidumbre
Agrupamiento de conjuntos
Teoría de perturbaciones
Toma de decisiones
Algoritmo de agrupamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
La complejidad del tipo de datos y su distribución conlleva al aumento de la incertidumbre en la relación entre las muestras, lo que supone desafíos para minar efectivamente la estructura de posibles clusters de los datos. El clustering de conjunto tiene como objetivo obtener una división de clusters unificada fusionando múltiples resultados de clustering base diferentes. Este artículo propone un algoritmo de clustering de conjunto de tres vías basado en la teoría de perturbación de muestras para resolver el problema de la toma de decisiones inexactas causadas por información inexacta o datos insuficientes. El algoritmo primero combina el algoritmo de vecino más cercano natural para generar dos conjuntos de datos perturbados, extrae aleatoriamente los subconjuntos de características de las muestras y utiliza el algoritmo de clustering tradicional para obtener diferentes clusters base. La estabilidad de las muestras se obtiene utilizando la matriz de co-asociación y la función de determinación, y luego las muestras se pueden dividir en una región estable y una región inestable según un umbral para la estabilidad de las muestras. La región estable consiste en muestras de alta estabilidad y se divide en la región central de cada cluster utilizando el algoritmo K-means. La región inestable consiste en muestras de baja estabilidad y se asigna a las regiones marginales de cada cluster. Por lo tanto, se forma un resultado de clustering de tres vías. Los resultados experimentales muestran que el algoritmo propuesto en este artículo puede obtener mejores resultados de clustering en comparación con otros algoritmos de clustering de conjunto en el conjunto de datos del Repositorio de Aprendizaje Automático de UCI, y puede revelar efectivamente la estructura de clustering.
Descripción
La complejidad del tipo de datos y su distribución conlleva al aumento de la incertidumbre en la relación entre las muestras, lo que supone desafíos para minar efectivamente la estructura de posibles clusters de los datos. El clustering de conjunto tiene como objetivo obtener una división de clusters unificada fusionando múltiples resultados de clustering base diferentes. Este artículo propone un algoritmo de clustering de conjunto de tres vías basado en la teoría de perturbación de muestras para resolver el problema de la toma de decisiones inexactas causadas por información inexacta o datos insuficientes. El algoritmo primero combina el algoritmo de vecino más cercano natural para generar dos conjuntos de datos perturbados, extrae aleatoriamente los subconjuntos de características de las muestras y utiliza el algoritmo de clustering tradicional para obtener diferentes clusters base. La estabilidad de las muestras se obtiene utilizando la matriz de co-asociación y la función de determinación, y luego las muestras se pueden dividir en una región estable y una región inestable según un umbral para la estabilidad de las muestras. La región estable consiste en muestras de alta estabilidad y se divide en la región central de cada cluster utilizando el algoritmo K-means. La región inestable consiste en muestras de baja estabilidad y se asigna a las regiones marginales de cada cluster. Por lo tanto, se forma un resultado de clustering de tres vías. Los resultados experimentales muestran que el algoritmo propuesto en este artículo puede obtener mejores resultados de clustering en comparación con otros algoritmos de clustering de conjunto en el conjunto de datos del Repositorio de Aprendizaje Automático de UCI, y puede revelar efectivamente la estructura de clustering.