Un nuevo criterio para mejorar la convergencia de la agrupación difusa C-Means
Autores: Pérez-Ortega, Joaquín; Moreno-Calderón, Carlos Fernando; Roblero-Aguilar, Sandra Silvia; Almanza-Ortega, Nelva Nely; Frausto-Solís, Juan; Pazos-Rangel, Rodolfo; Rodríguez-Lelis, José María
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un nuevo criterio para mejorar la convergencia de la agrupación difusa C-Means
Categoría
Matemáticas
Subcategoría
Análisis matemático
Palabras clave
Problema de agrupamiento difuso
Complejidad computacional
Estrategia de convergencia
Inicialización
Optimización
Umbral de parada
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Uno de los algoritmos más utilizados para resolver el problema de agrupamiento difuso es Fuzzy C-Means; sin embargo, una de sus principales limitaciones es su alta complejidad computacional. Se sabe que la eficiencia de un algoritmo depende, entre otros factores, de las estrategias para su inicialización y convergencia. En esta investigación se propone una nueva estrategia de convergencia, la cual está basada en la diferencia de los valores de la función objetivo, en dos iteraciones consecutivas, expresada como un porcentaje de su valor en la penúltima. Además, se propone un nuevo método para optimizar la selección de valores del umbral de convergencia o detención del algoritmo, basado en el principio de Pareto. Para validar nuestro enfoque, se resolvió una colección de conjuntos de datos reales, y se observó una reducción significativa en el número de iteraciones, sin afectar significativamente la calidad de la solución. Basándonos en el método propuesto y en los experimentos realizados, encontramos conveniente utilizar valores de umbral iguales a 0.73 y 0.35 si se desea una disminución en el número de iteraciones de aproximadamente 75.2% y 64.56%, respectivamente, a expensas de una reducción en la calidad de la solución del 2% y 1%, respectivamente. Cabe mencionar que, a medida que se incrementa el tamaño de los conjuntos de datos, el enfoque propuesto tiende a obtener mejores resultados, por lo tanto, se sugiere su uso para conjuntos de datos encontrados en Big Data y Data Science.
Descripción
Uno de los algoritmos más utilizados para resolver el problema de agrupamiento difuso es Fuzzy C-Means; sin embargo, una de sus principales limitaciones es su alta complejidad computacional. Se sabe que la eficiencia de un algoritmo depende, entre otros factores, de las estrategias para su inicialización y convergencia. En esta investigación se propone una nueva estrategia de convergencia, la cual está basada en la diferencia de los valores de la función objetivo, en dos iteraciones consecutivas, expresada como un porcentaje de su valor en la penúltima. Además, se propone un nuevo método para optimizar la selección de valores del umbral de convergencia o detención del algoritmo, basado en el principio de Pareto. Para validar nuestro enfoque, se resolvió una colección de conjuntos de datos reales, y se observó una reducción significativa en el número de iteraciones, sin afectar significativamente la calidad de la solución. Basándonos en el método propuesto y en los experimentos realizados, encontramos conveniente utilizar valores de umbral iguales a 0.73 y 0.35 si se desea una disminución en el número de iteraciones de aproximadamente 75.2% y 64.56%, respectivamente, a expensas de una reducción en la calidad de la solución del 2% y 1%, respectivamente. Cabe mencionar que, a medida que se incrementa el tamaño de los conjuntos de datos, el enfoque propuesto tiende a obtener mejores resultados, por lo tanto, se sugiere su uso para conjuntos de datos encontrados en Big Data y Data Science.