Evaluación de algoritmos de agrupamiento en plataformas de HPC
Autores: Cebrian, Juan M.; Imbernón, Baldomero; Soto, Jesús; Cecilia, José M.
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Evaluación de algoritmos de agrupamiento en plataformas de HPC
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Algoritmos
Grupos
Elementos de datos
Costo computacional
Agrupamiento difuso
Plataformas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Los algoritmos de agrupamiento son uno de los núcleos más utilizados para generar conocimiento a partir de grandes conjuntos de datos. Estos algoritmos agrupan un conjunto de elementos de datos (es decir, imágenes, puntos, patrones, etc.) en grupos para identificar patrones o características comunes de una muestra. Sin embargo, estos algoritmos son muy costosos computacionalmente, ya que a menudo implican la computación de funciones de ajuste costosas que deben evaluarse para todos los puntos en el conjunto de datos. Este costo computacional es aún mayor para los métodos difusos, donde cada punto de datos puede pertenecer a más de un grupo. En este documento, evaluamos diferentes estrategias de paralelización en diferentes plataformas heterogéneas para algoritmos de agrupamiento difuso típicamente utilizados en el estado del arte, como el Fuzzy C-means (FCM), el Gustafson-Kessel FCM (GK-FCM) y el Fuzzy Minimals (FM). La evaluación experimental incluye compensaciones de rendimiento y energía. Nuestros resultados muestran que, dependiendo del patrón computacional de cada algoritmo, su fundamento matemático y la cantidad de datos a procesar, cada algoritmo funciona mejor en una plataforma diferente.
Descripción
Los algoritmos de agrupamiento son uno de los núcleos más utilizados para generar conocimiento a partir de grandes conjuntos de datos. Estos algoritmos agrupan un conjunto de elementos de datos (es decir, imágenes, puntos, patrones, etc.) en grupos para identificar patrones o características comunes de una muestra. Sin embargo, estos algoritmos son muy costosos computacionalmente, ya que a menudo implican la computación de funciones de ajuste costosas que deben evaluarse para todos los puntos en el conjunto de datos. Este costo computacional es aún mayor para los métodos difusos, donde cada punto de datos puede pertenecer a más de un grupo. En este documento, evaluamos diferentes estrategias de paralelización en diferentes plataformas heterogéneas para algoritmos de agrupamiento difuso típicamente utilizados en el estado del arte, como el Fuzzy C-means (FCM), el Gustafson-Kessel FCM (GK-FCM) y el Fuzzy Minimals (FM). La evaluación experimental incluye compensaciones de rendimiento y energía. Nuestros resultados muestran que, dependiendo del patrón computacional de cada algoritmo, su fundamento matemático y la cantidad de datos a procesar, cada algoritmo funciona mejor en una plataforma diferente.