Entendimiento y mejora de índices de validación de agrupamiento interno para datos categóricos
Autores: Gao, Xuedong; Yang, Minghan
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Entendimiento y mejora de índices de validación de agrupamiento interno para datos categóricos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Agrupamiento
índices de validación de agrupamiento interno
CVIs
Agrupamiento de datos categóricos
Utilidad de agrupamiento interno CVI
Ganancia de información
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
El agrupamiento es una de las principales tareas del aprendizaje automático. Los índices de validación de agrupamiento interno (CVIs) se utilizan para medir la calidad de varias particiones agrupadas para determinar los resultados de agrupamiento óptimos locales de manera no supervisada, y pueden actuar como la función objetivo de los algoritmos de agrupamiento. En este documento, primero estudiamos varios CVIs internos conocidos para el agrupamiento de datos categóricos, y demostramos la falta de efectividad al evaluar las particiones de diferentes números de agrupamientos sin medidas de separación entre clústeres o suposiciones; la precisión de la separación, junto con su coordinación con las medidas de compacidad intraclúster, puede afectar notablemente el rendimiento. Luego, con el objetivo de mejorar la medición de validación de agrupamiento interno, propusimos un nuevo CVI interno-utilidad de agrupamiento basado en la ganancia de información promediada al aislar cada clúster ()-que mide tanto la compacidad como la separación de la partición. Los resultados experimentales respaldaron nuestros hallazgos con respecto a los CVIs internos existentes, y mostraron que el propuesto supera a otros CVIs internos con o sin un número preconocido de agrupamientos.
Descripción
El agrupamiento es una de las principales tareas del aprendizaje automático. Los índices de validación de agrupamiento interno (CVIs) se utilizan para medir la calidad de varias particiones agrupadas para determinar los resultados de agrupamiento óptimos locales de manera no supervisada, y pueden actuar como la función objetivo de los algoritmos de agrupamiento. En este documento, primero estudiamos varios CVIs internos conocidos para el agrupamiento de datos categóricos, y demostramos la falta de efectividad al evaluar las particiones de diferentes números de agrupamientos sin medidas de separación entre clústeres o suposiciones; la precisión de la separación, junto con su coordinación con las medidas de compacidad intraclúster, puede afectar notablemente el rendimiento. Luego, con el objetivo de mejorar la medición de validación de agrupamiento interno, propusimos un nuevo CVI interno-utilidad de agrupamiento basado en la ganancia de información promediada al aislar cada clúster ()-que mide tanto la compacidad como la separación de la partición. Los resultados experimentales respaldaron nuestros hallazgos con respecto a los CVIs internos existentes, y mostraron que el propuesto supera a otros CVIs internos con o sin un número preconocido de agrupamientos.