logo móvil
Contáctanos

Un algoritmo mejorado de vecinos más cercanos k-multietiqueta basado en valor y peso

Autores: Wang, Zhe; Xu, Hao; Zhou, Pan; Xiao, Gang

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un algoritmo mejorado de vecinos más cercanos k-multietiqueta basado en valor y peso


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Datos multietiqueta
Desequilibrio de etiquetas
Algoritmo ML-kNN
Valor y peso
Etiquetas minoritarias y mayoritarias
Vecinos más cercanos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones


Descripción
Los datos multietiqueta comparten características importantes, incluido el desequilibrio de etiquetas, lo cual tiene una influencia significativa en el rendimiento de los clasificadores. Debido a este problema, un algoritmo ampliamente utilizado de clasificación multietiqueta, el algoritmo de los k-vecinos más cercanos multietiqueta (ML-kNN), tiene un mal rendimiento en datos multietiqueta desequilibrados. Para abordar este problema, este estudio propone un algoritmo ML-kNN mejorado basado en valor y peso. En este algoritmo mejorado, las etiquetas se dividen en minoritarias y mayoritarias, y se adoptan diferentes estrategias para diferentes etiquetas. Al considerar la información latente de la etiqueta llevada por los vecinos más cercanos, se propone un método de cálculo de valor que se utiliza para clasificar directamente las etiquetas mayoritarias. Además, para abordar el problema de clasificación errónea causado por la falta de información de vecinos más cercanos para las etiquetas minoritarias, se propone un cálculo de peso. El cálculo de peso propuesto convierte la información de distancia con y sin conjuntos de etiquetas en los vecinos más cercanos en pesos. Los resultados experimentales en conjuntos de datos multietiqueta de diferentes referencias demuestran el rendimiento del algoritmo, especialmente para conjuntos de datos con un alto desequilibrio. Diferentes métricas de evaluación muestran que los resultados mejoran aproximadamente en un 2-10%. El algoritmo verificado podría aplicarse a una clasificación multietiqueta de varios campos que involucran desequilibrio de etiquetas, como la identificación de moléculas de fármacos, la identificación de edificios y la categorización de textos.

Otros recursos que podrían interesarte

Temas Virtualpro