logo móvil
Contáctanos

Red de fusión jerárquica heterogénea para análisis de sentimientos multimodal en entornos del mundo real

Autores: Huang, Ju; Chen, Wenkang; Wang, Fangyi; Zhang, Haijun

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Red de fusión jerárquica heterogénea para análisis de sentimientos multimodal en entornos del mundo real


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelos
Análisis de sentimientos
Multimodal
Marco de fusión
Palabras de sentimiento
Desafíos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 38

Citaciones: Sin citaciones


Descripción
Los modelos de análisis de sentimientos multimodales pueden determinar los sentimientos de los usuarios utilizando información rica de diversas fuentes (por ejemplo, textual, visual y auditiva). Sin embargo, existen dos desafíos clave al implementar el modelo en entornos del mundo real: (1) las limitaciones de depender del rendimiento de los modelos de reconocimiento automático del habla (ASR) pueden llevar a errores en el reconocimiento de palabras de sentimiento, lo que puede desorientar el análisis de sentimientos de la modalidad textual, y (2) las variaciones en la densidad de información entre modalidades complican el desarrollo de un marco de fusión de alta calidad. Para abordar estos desafíos, este artículo propone un nuevo Módulo de Optimización de Palabras de Sentimiento Multimodal y un marco de fusión jerárquico heterogéneo (MSWOHHF). Específicamente, el Módulo de Optimización de Palabras de Sentimiento Multimodal propuesto optimiza las palabras de sentimiento extraídas de la modalidad textual por el modelo ASR, reduciendo así los errores en el reconocimiento de palabras de sentimiento. En la fase de fusión multimodal, se introduce una arquitectura de red de fusión jerárquica heterogénea, que primero utiliza un Módulo de Agregación Transformer para fusionar las modalidades visual y auditiva, mejorando las características semánticas de alto nivel de cada modalidad. Luego, un Módulo de Fusión de Atención Cruzada integra la modalidad textual con la fusión audiovisual. A continuación, se propone un Módulo de Fusión de Atención Basado en Características que permite la fusión ajustando dinámicamente los pesos de las representaciones combinadas y unimodales. Luego, predice la polaridad del sentimiento utilizando una red neuronal no lineal. Finalmente, los resultados experimentales en los conjuntos de datos MOSI-SpeechBrain, MOSI-IBM y MOSI-iFlytek muestran que el MSWOHHF supera a varios baselines, demostrando un mejor rendimiento.

Otros recursos que podrían interesarte

Temas Virtualpro