Mfsc: un marco de clasificación de sentimientos a nivel de aspecto multimodal con redes de fusión y compuertas multiimagen
Autores: Zi, Lingling; Pan, Xiangkai; Cong, Xin
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mfsc: un marco de clasificación de sentimientos a nivel de aspecto multimodal con redes de fusión y compuertas multiimagen
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Interés
Clasificación de sentimientos a nivel de aspecto multimodal
Textual
Visual
Precisión de clasificación
Fusión de múltiples características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 46
Citaciones: Sin citaciones
Actualmente, hay un gran interés en la clasificación de sentimientos a nivel de aspecto multimodal utilizando información tanto textual como visual, lo que cambia el uso tradicional de solo un solo modal para identificar la polaridad del sentimiento. Dado que los métodos existentes podrían fortalecerse en términos de precisión de clasificación, realizamos un estudio sobre la clasificación de sentimientos multimodales a nivel de aspecto con el objetivo de explorar la interacción entre las características textuales y visuales. Específicamente, construimos un marco de clasificación de sentimientos multimodales a nivel de aspecto con puerta multiimagen y redes de fusión llamado MFSC. MFSC consta de cuatro partes, es decir, extracción de características de texto, extracción de características visuales, mejora de características de texto y fusión de múltiples características. En primer lugar, se adopta una red neuronal de memoria a corto y largo plazo bidireccional para extraer la característica de texto inicial. Sobre esta base, se diseña una estrategia de mejora de características de texto, que utiliza una red de memoria de texto y pesos adaptativos para extraer las características de texto finales. Mientras tanto, se propone un método de puerta multiimagen para fusionar características de múltiples imágenes y filtrar ruido irrelevante. Finalmente, se propone un método de fusión de características texto-visuales basado en un mecanismo de atención para mejorar mejor el rendimiento de clasificación capturando la asociación entre texto e imágenes. Los resultados experimentales muestran que MFSC tiene ventajas en precisión de clasificación y macro-F1.
Descripción
Actualmente, hay un gran interés en la clasificación de sentimientos a nivel de aspecto multimodal utilizando información tanto textual como visual, lo que cambia el uso tradicional de solo un solo modal para identificar la polaridad del sentimiento. Dado que los métodos existentes podrían fortalecerse en términos de precisión de clasificación, realizamos un estudio sobre la clasificación de sentimientos multimodales a nivel de aspecto con el objetivo de explorar la interacción entre las características textuales y visuales. Específicamente, construimos un marco de clasificación de sentimientos multimodales a nivel de aspecto con puerta multiimagen y redes de fusión llamado MFSC. MFSC consta de cuatro partes, es decir, extracción de características de texto, extracción de características visuales, mejora de características de texto y fusión de múltiples características. En primer lugar, se adopta una red neuronal de memoria a corto y largo plazo bidireccional para extraer la característica de texto inicial. Sobre esta base, se diseña una estrategia de mejora de características de texto, que utiliza una red de memoria de texto y pesos adaptativos para extraer las características de texto finales. Mientras tanto, se propone un método de puerta multiimagen para fusionar características de múltiples imágenes y filtrar ruido irrelevante. Finalmente, se propone un método de fusión de características texto-visuales basado en un mecanismo de atención para mejorar mejor el rendimiento de clasificación capturando la asociación entre texto e imágenes. Los resultados experimentales muestran que MFSC tiene ventajas en precisión de clasificación y macro-F1.