Algoritmo de clasificación de texto multietiqueta basado en la fusión de dos transformadores de flujo
Autores: Duan, Lihua; You, Qi; Wu, Xinke; Sun, Jun
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Algoritmo de clasificación de texto multietiqueta basado en la fusión de dos transformadores de flujo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Existente
Multietiqueta
Clasificación de texto
Algoritmo
Codificador-decodificador de transformador
Relación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Los métodos existentes de clasificación de texto multietiqueta dependen de un diseño manual complejo para extraer la correlación de etiquetas, lo que tiene el riesgo de sobreajuste e ignora la relación entre el texto y las etiquetas. Para resolver los problemas mencionados, este documento propone un algoritmo de clasificación de texto multietiqueta basado en un codificador-decodificador de transformador, que puede extraer de forma adaptativa la relación de dependencia entre diferentes etiquetas y texto. Primero, se lleva a cabo el aprendizaje de representación de texto a través de incrustación de palabras y una red neuronal de memoria a corto y largo plazo bidireccional. En segundo lugar, la relación global del texto se modela mediante el codificador de transformador, y luego la consulta multietiqueta se aprende de forma adaptativa mediante el decodificador de transformador. Por último, se propone una estrategia de fusión ponderada bajo la supervisión de múltiples funciones de pérdida para mejorar aún más el rendimiento de clasificación. Los resultados experimentales en los conjuntos de datos AAPD y RCV1-V2 muestran que en comparación con los métodos existentes, el algoritmo propuesto logra mejores resultados de clasificación. El micro-F1 óptimo alcanza el 73.4% y el 87.8%, respectivamente, demostrando la efectividad del algoritmo propuesto.
Descripción
Los métodos existentes de clasificación de texto multietiqueta dependen de un diseño manual complejo para extraer la correlación de etiquetas, lo que tiene el riesgo de sobreajuste e ignora la relación entre el texto y las etiquetas. Para resolver los problemas mencionados, este documento propone un algoritmo de clasificación de texto multietiqueta basado en un codificador-decodificador de transformador, que puede extraer de forma adaptativa la relación de dependencia entre diferentes etiquetas y texto. Primero, se lleva a cabo el aprendizaje de representación de texto a través de incrustación de palabras y una red neuronal de memoria a corto y largo plazo bidireccional. En segundo lugar, la relación global del texto se modela mediante el codificador de transformador, y luego la consulta multietiqueta se aprende de forma adaptativa mediante el decodificador de transformador. Por último, se propone una estrategia de fusión ponderada bajo la supervisión de múltiples funciones de pérdida para mejorar aún más el rendimiento de clasificación. Los resultados experimentales en los conjuntos de datos AAPD y RCV1-V2 muestran que en comparación con los métodos existentes, el algoritmo propuesto logra mejores resultados de clasificación. El micro-F1 óptimo alcanza el 73.4% y el 87.8%, respectivamente, demostrando la efectividad del algoritmo propuesto.