Clasificación de texto multi-etiqueta basada en red de fusión de bi-atención de etiqueta-oración con extracción de características de múltiples niveles
Autores: Li, Anqi; Zhang, Lin
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Clasificación de texto multi-etiqueta basada en red de fusión de bi-atención de etiqueta-oración con extracción de características de múltiples niveles
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Clasificación de texto multi-etiqueta
Red de fusión de bi-atención entre etiqueta y oración
Extracción de características multinivel
Nivel de documento
Nivel de oración
Representaciones textuales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 50
Citaciones: Sin citaciones
La clasificación de texto de múltiples etiquetas (MLTC) tiene como objetivo asignar la etiqueta o etiquetas más apropiadas a cada texto de entrada. Los estudios previos se han centrado en la extracción de información textual, ignorando la interdependencia de las etiquetas y los textos, lo que conduce a la pérdida de información sobre las etiquetas. Además, los estudios anteriores tienden a enfocarse en la única granularidad de la información en los documentos, ignorando el grado de inclinación hacia las etiquetas en diferentes oraciones en textos con múltiples etiquetas. Para resolver los problemas anteriores, este documento propone una Red de Fusión de Bi-Atención de Etiqueta-Oración (LSBAFN) con extracción de características multinivel para la extracción de información de múltiples granularidades e información de etiquetas en documentos. Específicamente, se obtienen primero incrustaciones de palabras a nivel de documento y a nivel de oración. Luego, se utiliza la relevancia textual de las etiquetas en estos dos niveles para construir representaciones textuales a nivel de oración. A continuación, se utiliza un mecanismo de extracción de características multinivel para adquirir una representación textual a nivel de oración que incorpora información contextual y una representación textual a nivel de documento que refleja características de etiquetas. Posteriormente, se utiliza el mecanismo de fusión de bi-atención de etiqueta-oración para aprender las relaciones de características en las dos representaciones de texto y fusionarlas. La atención de etiquetas identifica características de texto relacionadas con etiquetas desde la representación de texto a nivel de documento, mientras que la atención de oraciones se centra en la tendencia de las oraciones hacia las etiquetas. Finalmente, se extrae la porción efectiva de las características fusionadas para la clasificación mediante un perceptrón multicapa. Los hallazgos experimentales indican que el LSBAFN puede mejorar la efectividad de la tarea de MLTC. En comparación con los modelos de referencia, el LSBAFN obtiene una mejora significativa del 0,6% y 7,81% en -1 y -1 en el conjunto de datos de Tema de Artículo y mejoras de 1,03% y 0,47% en y 1,02% y 0,38% en en el conjunto de datos de Categoría de Software y conjunto de datos RCV1.
Descripción
La clasificación de texto de múltiples etiquetas (MLTC) tiene como objetivo asignar la etiqueta o etiquetas más apropiadas a cada texto de entrada. Los estudios previos se han centrado en la extracción de información textual, ignorando la interdependencia de las etiquetas y los textos, lo que conduce a la pérdida de información sobre las etiquetas. Además, los estudios anteriores tienden a enfocarse en la única granularidad de la información en los documentos, ignorando el grado de inclinación hacia las etiquetas en diferentes oraciones en textos con múltiples etiquetas. Para resolver los problemas anteriores, este documento propone una Red de Fusión de Bi-Atención de Etiqueta-Oración (LSBAFN) con extracción de características multinivel para la extracción de información de múltiples granularidades e información de etiquetas en documentos. Específicamente, se obtienen primero incrustaciones de palabras a nivel de documento y a nivel de oración. Luego, se utiliza la relevancia textual de las etiquetas en estos dos niveles para construir representaciones textuales a nivel de oración. A continuación, se utiliza un mecanismo de extracción de características multinivel para adquirir una representación textual a nivel de oración que incorpora información contextual y una representación textual a nivel de documento que refleja características de etiquetas. Posteriormente, se utiliza el mecanismo de fusión de bi-atención de etiqueta-oración para aprender las relaciones de características en las dos representaciones de texto y fusionarlas. La atención de etiquetas identifica características de texto relacionadas con etiquetas desde la representación de texto a nivel de documento, mientras que la atención de oraciones se centra en la tendencia de las oraciones hacia las etiquetas. Finalmente, se extrae la porción efectiva de las características fusionadas para la clasificación mediante un perceptrón multicapa. Los hallazgos experimentales indican que el LSBAFN puede mejorar la efectividad de la tarea de MLTC. En comparación con los modelos de referencia, el LSBAFN obtiene una mejora significativa del 0,6% y 7,81% en -1 y -1 en el conjunto de datos de Tema de Artículo y mejoras de 1,03% y 0,47% en y 1,02% y 0,38% en en el conjunto de datos de Categoría de Software y conjunto de datos RCV1.