Mejorando escalable k-means++
Autores: Hämäläinen, Joonas; Kärkkäinen, Tommi; Rossi, Tuomo
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Mejorando escalable k-means++
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Métodos propuestos
Agrupamiento K-means
Enfoque de dividir y conquistar
Método de proyección aleatoria
Problemas a gran escala
Precisión del agrupamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
Se proponen dos nuevos métodos de inicialización para el clustering K-means. Ambas propuestas se basan en aplicar un enfoque de divide y vencerás para el tipo de estrategia de inicialización de K-means. La segunda propuesta también utiliza múltiples subespacios de menor dimensión producidos por el método de proyección aleatoria para la inicialización. Los métodos propuestos son escalables y pueden ejecutarse en paralelo, lo que los hace adecuados para inicializar problemas a gran escala. En los experimentos, se realiza una comparación de los métodos propuestos con los métodos K-means++ y K-means utilizando un amplio conjunto de conjuntos de datos a gran escala de referencia y sintéticos. En cuanto a este último, se presenta un nuevo algoritmo de generación de datos de clustering de alta dimensión. Los experimentos muestran que los métodos propuestos se comparan favorablemente con el estado del arte al mejorar la precisión del clustering y la velocidad de convergencia. También observamos que la inicialización actualmente más popular de K-means++ se comporta como la aleatoria en casos de dimensiones muy altas.
Descripción
Se proponen dos nuevos métodos de inicialización para el clustering K-means. Ambas propuestas se basan en aplicar un enfoque de divide y vencerás para el tipo de estrategia de inicialización de K-means. La segunda propuesta también utiliza múltiples subespacios de menor dimensión producidos por el método de proyección aleatoria para la inicialización. Los métodos propuestos son escalables y pueden ejecutarse en paralelo, lo que los hace adecuados para inicializar problemas a gran escala. En los experimentos, se realiza una comparación de los métodos propuestos con los métodos K-means++ y K-means utilizando un amplio conjunto de conjuntos de datos a gran escala de referencia y sintéticos. En cuanto a este último, se presenta un nuevo algoritmo de generación de datos de clustering de alta dimensión. Los experimentos muestran que los métodos propuestos se comparan favorablemente con el estado del arte al mejorar la precisión del clustering y la velocidad de convergencia. También observamos que la inicialización actualmente más popular de K-means++ se comporta como la aleatoria en casos de dimensiones muy altas.