Un método de medición de similitud con ponderación basada en entropía para la agrupación de conjuntos de datos mixtos numéricos y categóricos
Autores: Que, Xia; Jiang, Siyuan; Yang, Jiaoyun; An, Ning
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un método de medición de similitud con ponderación basada en entropía para la agrupación de conjuntos de datos mixtos numéricos y categóricos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Conjuntos de datos mixtos
Medidas de similitud
Agrupamiento
Ponderación basada en entropía
Datos numéricos
Datos categóricos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Se han recopilado muchos conjuntos de datos mixtos con atributos numéricos y categóricos en varios campos, incluida la medicina, la biología, etc. El diseño de medidas de similitud apropiadas juega un papel importante en la agrupación de estos conjuntos de datos. Muchas medidas tradicionales tratan los diferentes atributos por igual al medir la similitud. Sin embargo, diferentes atributos pueden contribuir de manera diferente ya que la cantidad de información que contienen podría variar mucho. En este artículo, proponemos una medida de similitud con ponderación basada en entropía para la agrupación de conjuntos de datos mixtos. Los datos numéricos se transforman primero en datos categóricos mediante una técnica de categorización automática. Luego, se aplica una estrategia de ponderación basada en entropía para denotar las diferentes importancias de varios atributos. Incorporamos la medida propuesta en un algoritmo de agrupación iterativo, y experimentos extensos muestran que este algoritmo supera a los métodos OCIL y K-Prototype con mejoras del 2.13% y 4.28%, respectivamente, en términos de precisión en seis conjuntos de datos mixtos de UCI.
Descripción
Se han recopilado muchos conjuntos de datos mixtos con atributos numéricos y categóricos en varios campos, incluida la medicina, la biología, etc. El diseño de medidas de similitud apropiadas juega un papel importante en la agrupación de estos conjuntos de datos. Muchas medidas tradicionales tratan los diferentes atributos por igual al medir la similitud. Sin embargo, diferentes atributos pueden contribuir de manera diferente ya que la cantidad de información que contienen podría variar mucho. En este artículo, proponemos una medida de similitud con ponderación basada en entropía para la agrupación de conjuntos de datos mixtos. Los datos numéricos se transforman primero en datos categóricos mediante una técnica de categorización automática. Luego, se aplica una estrategia de ponderación basada en entropía para denotar las diferentes importancias de varios atributos. Incorporamos la medida propuesta en un algoritmo de agrupación iterativo, y experimentos extensos muestran que este algoritmo supera a los métodos OCIL y K-Prototype con mejoras del 2.13% y 4.28%, respectivamente, en términos de precisión en seis conjuntos de datos mixtos de UCI.