Un algoritmo mejorado de vecinos más cercanos k-multietiqueta basado en valor y peso
Autores: Wang, Zhe; Xu, Hao; Zhou, Pan; Xiao, Gang
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un algoritmo mejorado de vecinos más cercanos k-multietiqueta basado en valor y peso
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Datos multietiqueta
Desequilibrio de etiquetas
Algoritmo ML-kNN
Valor y peso
Etiquetas minoritarias y mayoritarias
Vecinos más cercanos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Los datos multietiqueta comparten características importantes, incluido el desequilibrio de etiquetas, lo cual tiene una influencia significativa en el rendimiento de los clasificadores. Debido a este problema, un algoritmo ampliamente utilizado de clasificación multietiqueta, el algoritmo de los k-vecinos más cercanos multietiqueta (ML-kNN), tiene un mal rendimiento en datos multietiqueta desequilibrados. Para abordar este problema, este estudio propone un algoritmo ML-kNN mejorado basado en valor y peso. En este algoritmo mejorado, las etiquetas se dividen en minoritarias y mayoritarias, y se adoptan diferentes estrategias para diferentes etiquetas. Al considerar la información latente de la etiqueta llevada por los vecinos más cercanos, se propone un método de cálculo de valor que se utiliza para clasificar directamente las etiquetas mayoritarias. Además, para abordar el problema de clasificación errónea causado por la falta de información de vecinos más cercanos para las etiquetas minoritarias, se propone un cálculo de peso. El cálculo de peso propuesto convierte la información de distancia con y sin conjuntos de etiquetas en los vecinos más cercanos en pesos. Los resultados experimentales en conjuntos de datos multietiqueta de diferentes referencias demuestran el rendimiento del algoritmo, especialmente para conjuntos de datos con un alto desequilibrio. Diferentes métricas de evaluación muestran que los resultados mejoran aproximadamente en un 2-10%. El algoritmo verificado podría aplicarse a una clasificación multietiqueta de varios campos que involucran desequilibrio de etiquetas, como la identificación de moléculas de fármacos, la identificación de edificios y la categorización de textos.
Descripción
Los datos multietiqueta comparten características importantes, incluido el desequilibrio de etiquetas, lo cual tiene una influencia significativa en el rendimiento de los clasificadores. Debido a este problema, un algoritmo ampliamente utilizado de clasificación multietiqueta, el algoritmo de los k-vecinos más cercanos multietiqueta (ML-kNN), tiene un mal rendimiento en datos multietiqueta desequilibrados. Para abordar este problema, este estudio propone un algoritmo ML-kNN mejorado basado en valor y peso. En este algoritmo mejorado, las etiquetas se dividen en minoritarias y mayoritarias, y se adoptan diferentes estrategias para diferentes etiquetas. Al considerar la información latente de la etiqueta llevada por los vecinos más cercanos, se propone un método de cálculo de valor que se utiliza para clasificar directamente las etiquetas mayoritarias. Además, para abordar el problema de clasificación errónea causado por la falta de información de vecinos más cercanos para las etiquetas minoritarias, se propone un cálculo de peso. El cálculo de peso propuesto convierte la información de distancia con y sin conjuntos de etiquetas en los vecinos más cercanos en pesos. Los resultados experimentales en conjuntos de datos multietiqueta de diferentes referencias demuestran el rendimiento del algoritmo, especialmente para conjuntos de datos con un alto desequilibrio. Diferentes métricas de evaluación muestran que los resultados mejoran aproximadamente en un 2-10%. El algoritmo verificado podría aplicarse a una clasificación multietiqueta de varios campos que involucran desequilibrio de etiquetas, como la identificación de moléculas de fármacos, la identificación de edificios y la categorización de textos.