Método de detección de número de clúster basado en valores singulares
Autores: Li, Yating; Cai, Jianghui; Yang, Haifeng; Wang, Jie; Shi, Chenhui; Liang, Bo; Zhao, Xujun; Xun, Yaling
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Método de detección de número de clúster basado en valores singulares
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Número de grupo
Descomposición de valores singulares
Análisis de agrupamiento
Valores singulares
Estructura de grupo
Detección de número de grupo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
El número de conglomerados puede afectar directamente el efecto de agrupación y su aplicación en escenarios del mundo real. Su determinación es uno de los problemas clave en el análisis de conglomerados. Según la descomposición de valores singulares (SVD), las direcciones características de los valores singulares más grandes probablemente representan los patrones de datos primarios, tendencias o estructuras correspondientes a la información principal. En el análisis de agrupación, la información principal y la estructura probablemente estén relacionadas con la estructura del conglomerado en sí misma. El número de valores singulares más grandes puede corresponder al número de conglomerados, y su información principal puede corresponder a diferentes conglomerados. Basándose en esto, se propone un método de detección de número de conglomerados basado en valores singulares. Primero, se propone la fórmula de densidad de K-vecinos más cercanos transferidos (TKNN) para abordar la limitación del algoritmo DPC al no poder identificar centroides en conglomerados dispersos de conjuntos de datos desequilibrados. En segundo lugar, se seleccionan datos centrales mediante el algoritmo DPC con una fórmula de densidad modificada para capturar mejor la distribución de datos. En tercer lugar, basándose en los datos centrales seleccionados, se construye una matriz de similitud dispersa para resaltar aún más las relaciones entre los datos y mejorar la distribución de las características de los datos. Finalmente, se realiza SVD en la matriz de similitud dispersa para obtener valores singulares, se introduce la tasa de contribución acumulativa para determinar el número de valores singulares relativamente grandes (es decir, el número de conglomerados). Los resultados experimentales muestran que nuestro método es superior para determinar el número de conglomerados en conjuntos de datos con formas complejas.
Descripción
El número de conglomerados puede afectar directamente el efecto de agrupación y su aplicación en escenarios del mundo real. Su determinación es uno de los problemas clave en el análisis de conglomerados. Según la descomposición de valores singulares (SVD), las direcciones características de los valores singulares más grandes probablemente representan los patrones de datos primarios, tendencias o estructuras correspondientes a la información principal. En el análisis de agrupación, la información principal y la estructura probablemente estén relacionadas con la estructura del conglomerado en sí misma. El número de valores singulares más grandes puede corresponder al número de conglomerados, y su información principal puede corresponder a diferentes conglomerados. Basándose en esto, se propone un método de detección de número de conglomerados basado en valores singulares. Primero, se propone la fórmula de densidad de K-vecinos más cercanos transferidos (TKNN) para abordar la limitación del algoritmo DPC al no poder identificar centroides en conglomerados dispersos de conjuntos de datos desequilibrados. En segundo lugar, se seleccionan datos centrales mediante el algoritmo DPC con una fórmula de densidad modificada para capturar mejor la distribución de datos. En tercer lugar, basándose en los datos centrales seleccionados, se construye una matriz de similitud dispersa para resaltar aún más las relaciones entre los datos y mejorar la distribución de las características de los datos. Finalmente, se realiza SVD en la matriz de similitud dispersa para obtener valores singulares, se introduce la tasa de contribución acumulativa para determinar el número de valores singulares relativamente grandes (es decir, el número de conglomerados). Los resultados experimentales muestran que nuestro método es superior para determinar el número de conglomerados en conjuntos de datos con formas complejas.