logo móvil
Contáctanos

Agrupación de datos masivos distribuidos heterogéneos en redes dispersas

Autores: Pfander, David; Daiß, Gregor; Pflüger, Dirk

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Agrupación de datos masivos distribuidos heterogéneos en redes dispersas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Agrupamiento
Minería de datos
Agrupamiento de malla dispersa
Basado en densidad
Alto rendimiento
Distribuido

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones


Descripción
La agrupación es una tarea importante en la minería de datos que se ha vuelto más desafiante debido al tamaño cada vez mayor de los conjuntos de datos disponibles. Para hacer frente a estos escenarios de big data, se requiere un enfoque de agrupación de alto rendimiento. La agrupación de cuadrícula dispersa es un método de agrupación basado en la densidad que utiliza una estimación de densidad de cuadrícula dispersa como su bloque de construcción central. El enfoque de estimación de densidad subyacente permite la detección de grupos con formas no convexas y sin un número predeterminado de grupos. En este trabajo, presentamos una nueva variante distribuida y portátil en términos de rendimiento del algoritmo de agrupación de cuadrícula dispersa que es adecuado para entornos de big data. Nuestros núcleos computados se implementaron en OpenCL para permitir la portabilidad en una amplia gama de arquitecturas. Para entornos distribuidos, agregamos un esquema de gestor-trabajador que se implementó utilizando MPI. En experimentos en dos supercomputadoras, Piz Daint y Hazel Hen, con hasta 100 millones de puntos de datos en un conjunto de datos de diez dimensiones, mostramos el rendimiento y la escalabilidad de nuestro enfoque. El conjunto de datos con 100 millones de puntos de datos se agrupó en 1198 usando 128 nodos de Piz Daint. Esto se traduce en un rendimiento general de 352. A nivel de nodo, proporcionamos resultados para dos GPU, la Tesla P100 de Nvidia y la AMD FirePro W8100, y una plataforma basada en procesador que utiliza procesadores Intel Xeon E5-2680v3. En estos experimentos, logramos entre el 43% y el 66% del rendimiento máximo en todos los núcleos y dispositivos computados, demostrando la portabilidad de rendimiento de nuestro enfoque.

Otros recursos que podrían interesarte

Temas Virtualpro