Un nuevo método de agrupamiento basado en la fórmula de inversión
Autores: Lukauskas, Mantas; Ruzgas, Tomas
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un nuevo método de agrupamiento basado en la fórmula de inversión
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Agrupamiento de datos
Aprendizaje no supervisado
Método de agrupamiento por densidad
K-medias
Modelo de mezcla gaussiana
Fórmula de inversión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
La agrupación de datos es una área de la minería de datos que se clasifica en la clase de aprendizaje no supervisado. El análisis de clusters divide los datos en diferentes clases al descubrir la estructura interna de los objetos del conjunto de datos y su relación. Este documento presentó un nuevo método de agrupación por densidad basado en la estimación de densidad de la fórmula de inversión modificada. Este nuevo método debería permitir mejorar el rendimiento y la robustez de k-means, el modelo de mezcla gaussiana y otros métodos. El proceso principal del algoritmo de agrupación propuesto consta de tres pasos principales. En primer lugar, inicializamos los parámetros y generamos una matriz T. En segundo lugar, estimamos las densidades de cada punto y cluster. En tercer lugar, actualizamos las matrices de media, sigma y phi. El nuevo método basado en la fórmula de inversión funciona bastante bien con diferentes conjuntos de datos en comparación con K-means, el modelo de mezcla gaussiana y el modelo de mezcla gaussiana bayesiana. Por otro lado, los nuevos métodos tienen limitaciones porque este método en su estado actual no puede trabajar con datos de mayor dimensión (d > 15). Esto se resolverá en las futuras versiones del modelo, detallado más adelante en trabajos futuros. Además, basándonos en los resultados, podemos ver que el método MIDEv2 funciona mejor con datos generados con valores atípicos en todos los conjuntos de datos (0.5%, 1%, 2%, 4% de valores atípicos). El punto interesante es que un nuevo método basado en la fórmula de inversión puede agrupar los datos incluso si no tienen valores atípicos; uno de los más populares, por ejemplo, es el conjunto de datos Iris.
Descripción
La agrupación de datos es una área de la minería de datos que se clasifica en la clase de aprendizaje no supervisado. El análisis de clusters divide los datos en diferentes clases al descubrir la estructura interna de los objetos del conjunto de datos y su relación. Este documento presentó un nuevo método de agrupación por densidad basado en la estimación de densidad de la fórmula de inversión modificada. Este nuevo método debería permitir mejorar el rendimiento y la robustez de k-means, el modelo de mezcla gaussiana y otros métodos. El proceso principal del algoritmo de agrupación propuesto consta de tres pasos principales. En primer lugar, inicializamos los parámetros y generamos una matriz T. En segundo lugar, estimamos las densidades de cada punto y cluster. En tercer lugar, actualizamos las matrices de media, sigma y phi. El nuevo método basado en la fórmula de inversión funciona bastante bien con diferentes conjuntos de datos en comparación con K-means, el modelo de mezcla gaussiana y el modelo de mezcla gaussiana bayesiana. Por otro lado, los nuevos métodos tienen limitaciones porque este método en su estado actual no puede trabajar con datos de mayor dimensión (d > 15). Esto se resolverá en las futuras versiones del modelo, detallado más adelante en trabajos futuros. Además, basándonos en los resultados, podemos ver que el método MIDEv2 funciona mejor con datos generados con valores atípicos en todos los conjuntos de datos (0.5%, 1%, 2%, 4% de valores atípicos). El punto interesante es que un nuevo método basado en la fórmula de inversión puede agrupar los datos incluso si no tienen valores atípicos; uno de los más populares, por ejemplo, es el conjunto de datos Iris.