Pofcm: un algoritmo de agrupamiento difuso paralelo para conjuntos de datos grandes
Autores: Pérez-Ortega, Joaquín; Rey-Figueroa, César David; Roblero-Aguilar, Sandra Silvia; Almanza-Ortega, Nelva Nely; Zavala-Díaz, Crispín; García-Paredes, Salomón; Landero-Nájera, Vanesa
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Pofcm: un algoritmo de agrupamiento difuso paralelo para conjuntos de datos grandes
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Algoritmos de agrupamiento
Extracción de conocimiento
Toma de decisiones
Procesamiento paralelo
Algoritmo híbrido OK-Means Fuzzy C-Means
Escalabilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
Los algoritmos de agrupamiento han demostrado ser una herramienta útil para extraer conocimiento y apoyar la toma de decisiones mediante el procesamiento de grandes volúmenes de datos. Los algoritmos de agrupamiento duro y difuso se han utilizado con éxito para identificar patrones y tendencias en muchas áreas, como finanzas, atención médica y marketing. Sin embargo, estos algoritmos aumentan significativamente su tiempo de solución a medida que aumenta el tamaño de los conjuntos de datos a resolver, lo que hace que su uso sea inviable. En este sentido, el procesamiento paralelo de algoritmos ha demostrado ser una alternativa eficiente para reducir su tiempo de solución. Se ha establecido que la implementación paralela de algoritmos requiere su rediseño para optimizar los recursos de hardware de la plataforma que se utilizará. En este artículo, proponemos una nueva implementación paralela del algoritmo Híbrido OK-Means Fuzzy C-Means (HOFCM), que es una variante eficiente de Fuzzy C-Means, en OpenMP. Una ventaja de usar OpenMP es su escalabilidad. La eficiencia de la implementación se compara con el algoritmo HOFCM. Los resultados experimentales del procesamiento de grandes conjuntos de datos reales y sintéticos muestran que nuestra implementación tiende a resolver de manera más eficiente instancias con un gran número de clústeres y dimensiones. Además, la implementación muestra resultados excelentes en cuanto a métricas de aceleración y eficiencia paralela. Nuestra principal contribución es un algoritmo de agrupamiento difuso para grandes conjuntos de datos que es escalable y no está limitado a un dominio específico.
Descripción
Los algoritmos de agrupamiento han demostrado ser una herramienta útil para extraer conocimiento y apoyar la toma de decisiones mediante el procesamiento de grandes volúmenes de datos. Los algoritmos de agrupamiento duro y difuso se han utilizado con éxito para identificar patrones y tendencias en muchas áreas, como finanzas, atención médica y marketing. Sin embargo, estos algoritmos aumentan significativamente su tiempo de solución a medida que aumenta el tamaño de los conjuntos de datos a resolver, lo que hace que su uso sea inviable. En este sentido, el procesamiento paralelo de algoritmos ha demostrado ser una alternativa eficiente para reducir su tiempo de solución. Se ha establecido que la implementación paralela de algoritmos requiere su rediseño para optimizar los recursos de hardware de la plataforma que se utilizará. En este artículo, proponemos una nueva implementación paralela del algoritmo Híbrido OK-Means Fuzzy C-Means (HOFCM), que es una variante eficiente de Fuzzy C-Means, en OpenMP. Una ventaja de usar OpenMP es su escalabilidad. La eficiencia de la implementación se compara con el algoritmo HOFCM. Los resultados experimentales del procesamiento de grandes conjuntos de datos reales y sintéticos muestran que nuestra implementación tiende a resolver de manera más eficiente instancias con un gran número de clústeres y dimensiones. Además, la implementación muestra resultados excelentes en cuanto a métricas de aceleración y eficiencia paralela. Nuestra principal contribución es un algoritmo de agrupamiento difuso para grandes conjuntos de datos que es escalable y no está limitado a un dominio específico.