Un algoritmo rápido para inicializar los centroides de clúster en aplicaciones de agrupamiento difuso
Autores: Cebeci, Zeynel; Cebeci, Cagatay
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Un algoritmo rápido para inicializar los centroides de clúster en aplicaciones de agrupamiento difuso
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Objetivo
Análisis de agrupamiento por particionamiento
Conjunto de datos
Clústeres
Algoritmo
InoFrep
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El objetivo del análisis de agrupamiento por partición es dividir un conjunto de datos en un número predeterminado de clústeres homogéneos. La calidad de los clústeres finales de un algoritmo de partición basado en prototipos se ve altamente afectada por los centroides elegidos inicialmente. En este artículo, proponemos el InoFrep, un novedoso algoritmo de inicialización dependiente de los datos para mejorar la eficiencia computacional y la robustez en el agrupamiento duro y difuso basado en prototipos. El InoFrep es un algoritmo de paso único que utiliza los datos del polígono de frecuencia de la característica con el mayor número de picos en un conjunto de datos. Al utilizar el algoritmo de agrupamiento Fuzzy C-means (FCM), comparamos empíricamente el rendimiento del InoFrep en un conjunto de datos sintético y seis conjuntos de datos reales con el de dos métodos de inicialización comunes: muestreo aleatorio de puntos de datos y K-means++. Nuestros resultados muestran que el algoritmo InoFrep reduce significativamente el número de iteraciones y el tiempo de computación requerido por el algoritmo FCM. Además, puede aplicarse a conjuntos de datos grandes multidimensionales debido a su menor tiempo de inicialización e independencia de la dimensionalidad al trabajar solo con una característica con el mayor número de picos.
Descripción
El objetivo del análisis de agrupamiento por partición es dividir un conjunto de datos en un número predeterminado de clústeres homogéneos. La calidad de los clústeres finales de un algoritmo de partición basado en prototipos se ve altamente afectada por los centroides elegidos inicialmente. En este artículo, proponemos el InoFrep, un novedoso algoritmo de inicialización dependiente de los datos para mejorar la eficiencia computacional y la robustez en el agrupamiento duro y difuso basado en prototipos. El InoFrep es un algoritmo de paso único que utiliza los datos del polígono de frecuencia de la característica con el mayor número de picos en un conjunto de datos. Al utilizar el algoritmo de agrupamiento Fuzzy C-means (FCM), comparamos empíricamente el rendimiento del InoFrep en un conjunto de datos sintético y seis conjuntos de datos reales con el de dos métodos de inicialización comunes: muestreo aleatorio de puntos de datos y K-means++. Nuestros resultados muestran que el algoritmo InoFrep reduce significativamente el número de iteraciones y el tiempo de computación requerido por el algoritmo FCM. Además, puede aplicarse a conjuntos de datos grandes multidimensionales debido a su menor tiempo de inicialización e independencia de la dimensionalidad al trabajar solo con una característica con el mayor número de picos.