logo móvil
Contáctanos

Un método de medición de similitud con ponderación basada en entropía para la agrupación de conjuntos de datos mixtos numéricos y categóricos

Autores: Que, Xia; Jiang, Siyuan; Yang, Jiaoyun; An, Ning

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Un método de medición de similitud con ponderación basada en entropía para la agrupación de conjuntos de datos mixtos numéricos y categóricos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Conjuntos de datos mixtos
Medidas de similitud
Agrupamiento
Ponderación basada en entropía
Datos numéricos
Datos categóricos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
Se han recopilado muchos conjuntos de datos mixtos con atributos numéricos y categóricos en varios campos, incluida la medicina, la biología, etc. El diseño de medidas de similitud apropiadas juega un papel importante en la agrupación de estos conjuntos de datos. Muchas medidas tradicionales tratan los diferentes atributos por igual al medir la similitud. Sin embargo, diferentes atributos pueden contribuir de manera diferente ya que la cantidad de información que contienen podría variar mucho. En este artículo, proponemos una medida de similitud con ponderación basada en entropía para la agrupación de conjuntos de datos mixtos. Los datos numéricos se transforman primero en datos categóricos mediante una técnica de categorización automática. Luego, se aplica una estrategia de ponderación basada en entropía para denotar las diferentes importancias de varios atributos. Incorporamos la medida propuesta en un algoritmo de agrupación iterativo, y experimentos extensos muestran que este algoritmo supera a los métodos OCIL y K-Prototype con mejoras del 2.13% y 4.28%, respectivamente, en términos de precisión en seis conjuntos de datos mixtos de UCI.

Otros recursos que podrían interesarte

Temas Virtualpro