Agrupación de datos masivos distribuidos heterogéneos en redes dispersas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Agrupación de datos masivos distribuidos heterogéneos en redes dispersas

Autores: Pfander, David; Daiß, Gregor; Pflüger, Dirk

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico

2019

Agrupación de datos masivos distribuidos heterogéneos en redes dispersas

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Agrupamiento

Minería de datos

Agrupamiento de malla dispersa

Basado en densidad

Alto rendimiento

Distribuido

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones

La agrupación es una tarea importante en la minería de datos que se ha vuelto más desafiante debido al tamaño cada vez mayor de los conjuntos de datos disponibles. Para hacer frente a estos escenarios de big data, se requiere un enfoque de agrupación de alto rendimiento. La agrupación de cuadrícula dispersa es un método de agrupación basado en la densidad que utiliza una estimación de densidad de cuadrícula dispersa como su bloque de construcción central. El enfoque de estimación de densidad subyacente permite la detección de grupos con formas no convexas y sin un número predeterminado de grupos. En este trabajo, presentamos una nueva variante distribuida y portátil en términos de rendimiento del algoritmo de agrupación de cuadrícula dispersa que es adecuado para entornos de big data. Nuestros núcleos computados se implementaron en OpenCL para permitir la portabilidad en una amplia gama de arquitecturas. Para entornos distribuidos, agregamos un esquema de gestor-trabajador que se implementó utilizando MPI. En experimentos en dos supercomputadoras, Piz Daint y Hazel Hen, con hasta 100 millones de puntos de datos en un conjunto de datos de diez dimensiones, mostramos el rendimiento y la escalabilidad de nuestro enfoque. El conjunto de datos con 100 millones de puntos de datos se agrupó en 1198 usando 128 nodos de Piz Daint. Esto se traduce en un rendimiento general de 352. A nivel de nodo, proporcionamos resultados para dos GPU, la Tesla P100 de Nvidia y la AMD FirePro W8100, y una plataforma basada en procesador que utiliza procesadores Intel Xeon E5-2680v3. En estos experimentos, logramos entre el 43% y el 66% del rendimiento máximo en todos los núcleos y dispositivos computados, demostrando la portabilidad de rendimiento de nuestro enfoque.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro