logo móvil
Contáctanos

Algoritmo Genético con una Técnica Mejorada de Población Inicial para la Agrupación Automática de Datos de Baja Dimensión

Autores: Zhou, Xiangbing; Miao, Fang; Ma, Hongjiang

Idioma: Inglés

Editor: MDPI

Año: 2018

Descargar PDF

Acceso abierto

Artículo científico
2018

Algoritmo Genético con una Técnica Mejorada de Población Inicial para la Agrupación Automática de Datos de Baja Dimensión


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Agrupamiento k-means
Algoritmos genéticos
Población inicial
Clústeres
Semillas
Minería de datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El agrupamiento K-means es una técnica importante y popular en la minería de datos. Desafortunadamente, para cualquier conjunto de datos dado (no basado en conocimiento), es muy difícil para un usuario estimar el número adecuado de clústeres de antemano, y también tiene la tendencia a quedar atrapado en óptimos locales cuando las semillas iniciales se eligen al azar. Los algoritmos genéticos (GAs) se utilizan generalmente para determinar automáticamente el número de clústeres y capturar una solución óptima como las semillas iniciales del agrupamiento K-means o los resultados del agrupamiento K-means. Sin embargo, típicamente eligen los genes de los cromosomas al azar, lo que resulta en resultados de agrupamiento pobres, mientras que una población inicial seleccionada generalmente puede mejorar los resultados finales de agrupamiento. Por lo tanto, algunas técnicas basadas en GA seleccionan cuidadosamente una población inicial de alta calidad con una alta complejidad. Este artículo propone un GA adaptativo (AGA) con una población inicial mejorada para el agrupamiento K-means (SeedClust). En SeedClust, se presenta un método de estimación de densidad mejorado y el K-means++ mejorado para capturar semillas iniciales de mayor calidad y generar la población inicial con baja complejidad, y se diseña una probabilidad de cruce y mutación adaptativa que se utiliza para la convergencia prematura y para mantener la diversidad de la población, respectivamente, lo que puede determinar automáticamente el número adecuado de clústeres y capturar una solución inicial mejorada. Finalmente, se obtienen los mejores cromosomas (centros) y se alimentan al K-means como semillas iniciales para generar resultados de agrupamiento de aún mayor calidad al permitir que las semillas iniciales se reajusten según sea necesario. Los resultados experimentales basados en conjuntos de datos GPS (Sistema de Posicionamiento Global) de taxis de baja dimensión demuestran que SeedClust tiene un rendimiento y efectividad superiores.

Otros recursos que podrían interesarte

Temas Virtualpro