Agrupación de datos masivos distribuidos heterogéneos en redes dispersas
Autores: Pfander, David; Daiß, Gregor; Pflüger, Dirk
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Agrupación de datos masivos distribuidos heterogéneos en redes dispersas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Agrupamiento
Minería de datos
Agrupamiento de malla dispersa
Basado en densidad
Alto rendimiento
Distribuido
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
La agrupación es una tarea importante en la minería de datos que se ha vuelto más desafiante debido al tamaño cada vez mayor de los conjuntos de datos disponibles. Para hacer frente a estos escenarios de big data, se requiere un enfoque de agrupación de alto rendimiento. La agrupación de cuadrícula dispersa es un método de agrupación basado en la densidad que utiliza una estimación de densidad de cuadrícula dispersa como su bloque de construcción central. El enfoque de estimación de densidad subyacente permite la detección de grupos con formas no convexas y sin un número predeterminado de grupos. En este trabajo, presentamos una nueva variante distribuida y portátil en términos de rendimiento del algoritmo de agrupación de cuadrícula dispersa que es adecuado para entornos de big data. Nuestros núcleos computados se implementaron en OpenCL para permitir la portabilidad en una amplia gama de arquitecturas. Para entornos distribuidos, agregamos un esquema de gestor-trabajador que se implementó utilizando MPI. En experimentos en dos supercomputadoras, Piz Daint y Hazel Hen, con hasta 100 millones de puntos de datos en un conjunto de datos de diez dimensiones, mostramos el rendimiento y la escalabilidad de nuestro enfoque. El conjunto de datos con 100 millones de puntos de datos se agrupó en 1198 usando 128 nodos de Piz Daint. Esto se traduce en un rendimiento general de 352. A nivel de nodo, proporcionamos resultados para dos GPU, la Tesla P100 de Nvidia y la AMD FirePro W8100, y una plataforma basada en procesador que utiliza procesadores Intel Xeon E5-2680v3. En estos experimentos, logramos entre el 43% y el 66% del rendimiento máximo en todos los núcleos y dispositivos computados, demostrando la portabilidad de rendimiento de nuestro enfoque.
Descripción
La agrupación es una tarea importante en la minería de datos que se ha vuelto más desafiante debido al tamaño cada vez mayor de los conjuntos de datos disponibles. Para hacer frente a estos escenarios de big data, se requiere un enfoque de agrupación de alto rendimiento. La agrupación de cuadrícula dispersa es un método de agrupación basado en la densidad que utiliza una estimación de densidad de cuadrícula dispersa como su bloque de construcción central. El enfoque de estimación de densidad subyacente permite la detección de grupos con formas no convexas y sin un número predeterminado de grupos. En este trabajo, presentamos una nueva variante distribuida y portátil en términos de rendimiento del algoritmo de agrupación de cuadrícula dispersa que es adecuado para entornos de big data. Nuestros núcleos computados se implementaron en OpenCL para permitir la portabilidad en una amplia gama de arquitecturas. Para entornos distribuidos, agregamos un esquema de gestor-trabajador que se implementó utilizando MPI. En experimentos en dos supercomputadoras, Piz Daint y Hazel Hen, con hasta 100 millones de puntos de datos en un conjunto de datos de diez dimensiones, mostramos el rendimiento y la escalabilidad de nuestro enfoque. El conjunto de datos con 100 millones de puntos de datos se agrupó en 1198 usando 128 nodos de Piz Daint. Esto se traduce en un rendimiento general de 352. A nivel de nodo, proporcionamos resultados para dos GPU, la Tesla P100 de Nvidia y la AMD FirePro W8100, y una plataforma basada en procesador que utiliza procesadores Intel Xeon E5-2680v3. En estos experimentos, logramos entre el 43% y el 66% del rendimiento máximo en todos los núcleos y dispositivos computados, demostrando la portabilidad de rendimiento de nuestro enfoque.