Pardp: un algoritmo de agrupamiento basado en picos de densidad paralelos
Autores: Nigro, Libero; Cicirelli, Franco
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Pardp: un algoritmo de agrupamiento basado en picos de densidad paralelos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Algoritmo
Agrupamiento
Picos de densidad
K-vecinos más cercanos
Datos de alta dimensionalidad
Computación paralela
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 49
Citaciones: Sin citaciones
Este documento propone ParDP, un algoritmo y herramienta concreta para el clustering no supervisado, que pertenece a la clase de métodos de clustering basados en picos de densidad. Tales métodos se basan en la observación de que los puntos representativos del cluster (centroides) son puntos de mayor densidad local rodeados por puntos de menor densidad. Sin embargo, los centroides candidatos deben estar alejados entre sí. Un factor clave de ParDP es adoptar una técnica de k-Vecinos más Cercanos (kNN) para estimar la densidad de los puntos. El clustering completo depende de las densidades y distancias entre los puntos. ParDP utiliza análisis de componentes principales para manejar puntos de datos de alta dimensionalidad. La implementación actual se basa en flujos paralelos de Java y el mecanismo de fork/join sin bloqueo incorporado, lo que permite aprovechar la potencia de cómputo de las máquinas multi/núcleo de uso común. Este documento demuestra las capacidades de clustering de ParDP aplicándolo a varios conjuntos de datos de referencia y del mundo real. La operación de ParDP puede dirigirse a observar el número de clusters en un conjunto de datos o finalizar el clustering con un número de clusters asignado. Se pueden utilizar diferentes medidas internas y externas para evaluar la precisión de una solución de clustering resultante.
Descripción
Este documento propone ParDP, un algoritmo y herramienta concreta para el clustering no supervisado, que pertenece a la clase de métodos de clustering basados en picos de densidad. Tales métodos se basan en la observación de que los puntos representativos del cluster (centroides) son puntos de mayor densidad local rodeados por puntos de menor densidad. Sin embargo, los centroides candidatos deben estar alejados entre sí. Un factor clave de ParDP es adoptar una técnica de k-Vecinos más Cercanos (kNN) para estimar la densidad de los puntos. El clustering completo depende de las densidades y distancias entre los puntos. ParDP utiliza análisis de componentes principales para manejar puntos de datos de alta dimensionalidad. La implementación actual se basa en flujos paralelos de Java y el mecanismo de fork/join sin bloqueo incorporado, lo que permite aprovechar la potencia de cómputo de las máquinas multi/núcleo de uso común. Este documento demuestra las capacidades de clustering de ParDP aplicándolo a varios conjuntos de datos de referencia y del mundo real. La operación de ParDP puede dirigirse a observar el número de clusters en un conjunto de datos o finalizar el clustering con un número de clusters asignado. Se pueden utilizar diferentes medidas internas y externas para evaluar la precisión de una solución de clustering resultante.