Aprendizaje de Grupo de Características Latentes para la Agrupación de Datos de Alta Dimensionalidad
Autores: Wang, Wenting; He, Yulin; Ma, Liheng; Huang, Joshua Zhexue
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Aprendizaje de Grupo de Características Latentes para la Agrupación de Datos de Alta Dimensionalidad
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aprendizaje de grupos de características latentes
Datos de alta dimensión
Estructuras de agrupamiento de características
Algoritmo de agrupamiento
Algoritmo genético
Proceso evolutivo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En este artículo, proponemos un algoritmo de aprendizaje de grupos de características latentes (LFGL) para descubrir las estructuras de agrupamiento de características y los clústeres de subespacios para datos de alta dimensión. Las estructuras de agrupamiento de características, que se aprenden de manera analítica, pueden mejorar la precisión y eficiencia del agrupamiento de datos de alta dimensión. En el algoritmo LFGL, se utiliza el proceso evolutivo darwiniano para explorar las estructuras óptimas de agrupamiento de características, que se codifican como cromosomas en el algoritmo genético. El algoritmo de k-means ponderado por agrupamiento de características se utiliza como la función de aptitud para evaluar los cromosomas o estructuras de agrupamiento de características en cada generación de evolución. Para manejar mejor las densidades diversas de los clústeres en datos de alta dimensión, el k-means ponderado por agrupamiento de características original se revisa con la medida de disimilitud basada en la masa en lugar de la medida de distancia euclidiana y los pesos de las características se optimizan como un problema de factorización de matriz no negativa bajo la restricción ortogonal de la matriz de pesos de características. Las operaciones genéticas de mutación y cruce se utilizan para generar los nuevos cromosomas para la siguiente generación. En comparación con los algoritmos de agrupamiento bien conocidos, el algoritmo LFGL produjo resultados experimentales alentadores en conjuntos de datos del mundo real, lo que demostró el mejor rendimiento de LFGL al agrupar datos de alta dimensión.
Descripción
En este artículo, proponemos un algoritmo de aprendizaje de grupos de características latentes (LFGL) para descubrir las estructuras de agrupamiento de características y los clústeres de subespacios para datos de alta dimensión. Las estructuras de agrupamiento de características, que se aprenden de manera analítica, pueden mejorar la precisión y eficiencia del agrupamiento de datos de alta dimensión. En el algoritmo LFGL, se utiliza el proceso evolutivo darwiniano para explorar las estructuras óptimas de agrupamiento de características, que se codifican como cromosomas en el algoritmo genético. El algoritmo de k-means ponderado por agrupamiento de características se utiliza como la función de aptitud para evaluar los cromosomas o estructuras de agrupamiento de características en cada generación de evolución. Para manejar mejor las densidades diversas de los clústeres en datos de alta dimensión, el k-means ponderado por agrupamiento de características original se revisa con la medida de disimilitud basada en la masa en lugar de la medida de distancia euclidiana y los pesos de las características se optimizan como un problema de factorización de matriz no negativa bajo la restricción ortogonal de la matriz de pesos de características. Las operaciones genéticas de mutación y cruce se utilizan para generar los nuevos cromosomas para la siguiente generación. En comparación con los algoritmos de agrupamiento bien conocidos, el algoritmo LFGL produjo resultados experimentales alentadores en conjuntos de datos del mundo real, lo que demostró el mejor rendimiento de LFGL al agrupar datos de alta dimensión.