Un algoritmo de agrupamiento para conjuntos de datos grandes basado en la detección de variaciones de densidad
Autores: Ramírez-Díaz, Adrián Josué; Martínez-Trinidad, José Francisco; Carrasco-Ochoa, Jesús Ariel
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un algoritmo de agrupamiento para conjuntos de datos grandes basado en la detección de variaciones de densidad
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Algoritmos de agrupamiento
Agrupamiento basado en densidad
Conjuntos de datos grandes
VDECAL
Variaciones de densidad
Algoritmos basados en DBSCAN
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Los algoritmos de agrupamiento ayudan a manejar conjuntos de datos sin etiquetar. En conjuntos de datos grandes, los algoritmos de agrupamiento basados en densidad capturan eficazmente las estructuras intrincadas y las distribuciones variadas que estos conjuntos de datos suelen mostrar. Sin embargo, aunque estos algoritmos pueden adaptarse a conjuntos de datos grandes construyendo agrupaciones con formas arbitrarias identificando regiones de baja densidad, suelen tener dificultades para identificar variaciones de densidad. Este artículo propone un Algoritmo de Agrupamiento de Densidad Variable para Conjuntos de Datos Grandes (VDECAL) para abordar esta limitación. VDECAL introduce una estrategia de particionamiento de conjuntos de datos grandes que permite trabajar con subconjuntos manejables y evita el desequilibrio de carga. Dentro de cada partición, se calculan subconjuntos de objetos relevantes caracterizados por atributos como densidad, posición y ratio de superposición para identificar tanto regiones de baja densidad como variaciones de densidad, facilitando así la construcción de los grupos. Experimentos extensos en conjuntos de datos diversos muestran que VDECAL detecta eficazmente variaciones de densidad, mejorando la calidad de agrupamiento y el rendimiento en tiempo de ejecución en comparación con algoritmos basados en DBSCAN desarrollados para el agrupamiento de conjuntos de datos grandes.
Descripción
Los algoritmos de agrupamiento ayudan a manejar conjuntos de datos sin etiquetar. En conjuntos de datos grandes, los algoritmos de agrupamiento basados en densidad capturan eficazmente las estructuras intrincadas y las distribuciones variadas que estos conjuntos de datos suelen mostrar. Sin embargo, aunque estos algoritmos pueden adaptarse a conjuntos de datos grandes construyendo agrupaciones con formas arbitrarias identificando regiones de baja densidad, suelen tener dificultades para identificar variaciones de densidad. Este artículo propone un Algoritmo de Agrupamiento de Densidad Variable para Conjuntos de Datos Grandes (VDECAL) para abordar esta limitación. VDECAL introduce una estrategia de particionamiento de conjuntos de datos grandes que permite trabajar con subconjuntos manejables y evita el desequilibrio de carga. Dentro de cada partición, se calculan subconjuntos de objetos relevantes caracterizados por atributos como densidad, posición y ratio de superposición para identificar tanto regiones de baja densidad como variaciones de densidad, facilitando así la construcción de los grupos. Experimentos extensos en conjuntos de datos diversos muestran que VDECAL detecta eficazmente variaciones de densidad, mejorando la calidad de agrupamiento y el rendimiento en tiempo de ejecución en comparación con algoritmos basados en DBSCAN desarrollados para el agrupamiento de conjuntos de datos grandes.