logo móvil
Contáctanos

Pofcm: un algoritmo de agrupamiento difuso paralelo para conjuntos de datos grandes

Autores: Pérez-Ortega, Joaquín; Rey-Figueroa, César David; Roblero-Aguilar, Sandra Silvia; Almanza-Ortega, Nelva Nely; Zavala-Díaz, Crispín; García-Paredes, Salomón; Landero-Nájera, Vanesa

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Pofcm: un algoritmo de agrupamiento difuso paralelo para conjuntos de datos grandes


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Algoritmos de agrupamiento
Extracción de conocimiento
Toma de decisiones
Procesamiento paralelo
Algoritmo híbrido OK-Means Fuzzy C-Means
Escalabilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones


Descripción
Los algoritmos de agrupamiento han demostrado ser una herramienta útil para extraer conocimiento y apoyar la toma de decisiones mediante el procesamiento de grandes volúmenes de datos. Los algoritmos de agrupamiento duro y difuso se han utilizado con éxito para identificar patrones y tendencias en muchas áreas, como finanzas, atención médica y marketing. Sin embargo, estos algoritmos aumentan significativamente su tiempo de solución a medida que aumenta el tamaño de los conjuntos de datos a resolver, lo que hace que su uso sea inviable. En este sentido, el procesamiento paralelo de algoritmos ha demostrado ser una alternativa eficiente para reducir su tiempo de solución. Se ha establecido que la implementación paralela de algoritmos requiere su rediseño para optimizar los recursos de hardware de la plataforma que se utilizará. En este artículo, proponemos una nueva implementación paralela del algoritmo Híbrido OK-Means Fuzzy C-Means (HOFCM), que es una variante eficiente de Fuzzy C-Means, en OpenMP. Una ventaja de usar OpenMP es su escalabilidad. La eficiencia de la implementación se compara con el algoritmo HOFCM. Los resultados experimentales del procesamiento de grandes conjuntos de datos reales y sintéticos muestran que nuestra implementación tiende a resolver de manera más eficiente instancias con un gran número de clústeres y dimensiones. Además, la implementación muestra resultados excelentes en cuanto a métricas de aceleración y eficiencia paralela. Nuestra principal contribución es un algoritmo de agrupamiento difuso para grandes conjuntos de datos que es escalable y no está limitado a un dominio específico.

Otros recursos que podrían interesarte

Temas Virtualpro