Un índice de validez para la evaluación de agrupamientos por estructuras de cuadrícula
Autores: Wang, Jiachen; Zhang, Zuojing; Yue, Shihong
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un índice de validez para la evaluación de agrupamientos por estructuras de cuadrícula
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Evaluación
Resultados de agrupamiento
índice de validez
Estructura de partición en cuadrícula
Forma esférica
Número óptimo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
La evaluación de los resultados de agrupamiento juega un papel importante en el análisis de agrupamiento. La mayoría de los índices existentes están diseñados para la evaluación de resultados del algoritmo de agrupamiento K-medias más utilizado; solo puede identificar agrupaciones esféricas en lugar de agrupaciones arbitrarias. Sin embargo, en las últimas décadas, se han propuesto varios algoritmos para agrupar agrupaciones arbitrarias que no son esféricas, como aquellas con formas arbitrarias, tamaños diferentes, densidades distintas e instancias donde hay superposición entre agrupaciones. Para resolver eficazmente estos problemas, en este documento, proponemos un nuevo índice de validez basado en una estructura de partición en cuadrícula. Primero, todos los puntos de datos en un conjunto de datos se asignan a un grupo de cuadrículas particionadas. Luego, cada agrupación se normaliza hacia una forma esférica, y se calcula el número de cuadrículas vacías e intersectadas en todas las agrupaciones. Los dos grupos de cuadrículas sirven como el fondo de cada agrupación. Finalmente, de acuerdo con varios resultados de agrupamiento, se obtiene el número óptimo de agrupaciones cuando el número total de cuadrículas alcanza su valor mínimo. Se realizan experimentos en conjuntos de datos reales y sintéticos para cualquier algoritmo y conjunto de datos, revelando la generalización y efectividad del nuevo índice.
Descripción
La evaluación de los resultados de agrupamiento juega un papel importante en el análisis de agrupamiento. La mayoría de los índices existentes están diseñados para la evaluación de resultados del algoritmo de agrupamiento K-medias más utilizado; solo puede identificar agrupaciones esféricas en lugar de agrupaciones arbitrarias. Sin embargo, en las últimas décadas, se han propuesto varios algoritmos para agrupar agrupaciones arbitrarias que no son esféricas, como aquellas con formas arbitrarias, tamaños diferentes, densidades distintas e instancias donde hay superposición entre agrupaciones. Para resolver eficazmente estos problemas, en este documento, proponemos un nuevo índice de validez basado en una estructura de partición en cuadrícula. Primero, todos los puntos de datos en un conjunto de datos se asignan a un grupo de cuadrículas particionadas. Luego, cada agrupación se normaliza hacia una forma esférica, y se calcula el número de cuadrículas vacías e intersectadas en todas las agrupaciones. Los dos grupos de cuadrículas sirven como el fondo de cada agrupación. Finalmente, de acuerdo con varios resultados de agrupamiento, se obtiene el número óptimo de agrupaciones cuando el número total de cuadrículas alcanza su valor mínimo. Se realizan experimentos en conjuntos de datos reales y sintéticos para cualquier algoritmo y conjunto de datos, revelando la generalización y efectividad del nuevo índice.