Red de fusión jerárquica heterogénea para análisis de sentimientos multimodal en entornos del mundo real

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Red de fusión jerárquica heterogénea para análisis de sentimientos multimodal en entornos del mundo real

Autores: Huang, Ju; Chen, Wenkang; Wang, Fangyi; Zhang, Haijun

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Red de fusión jerárquica heterogénea para análisis de sentimientos multimodal en entornos del mundo real

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelos

Análisis de sentimientos

Multimodal

Marco de fusión

Palabras de sentimiento

Desafíos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 38

Citaciones: Sin citaciones

Los modelos de análisis de sentimientos multimodales pueden determinar los sentimientos de los usuarios utilizando información rica de diversas fuentes (por ejemplo, textual, visual y auditiva). Sin embargo, existen dos desafíos clave al implementar el modelo en entornos del mundo real: (1) las limitaciones de depender del rendimiento de los modelos de reconocimiento automático del habla (ASR) pueden llevar a errores en el reconocimiento de palabras de sentimiento, lo que puede desorientar el análisis de sentimientos de la modalidad textual, y (2) las variaciones en la densidad de información entre modalidades complican el desarrollo de un marco de fusión de alta calidad. Para abordar estos desafíos, este artículo propone un nuevo Módulo de Optimización de Palabras de Sentimiento Multimodal y un marco de fusión jerárquico heterogéneo (MSWOHHF). Específicamente, el Módulo de Optimización de Palabras de Sentimiento Multimodal propuesto optimiza las palabras de sentimiento extraídas de la modalidad textual por el modelo ASR, reduciendo así los errores en el reconocimiento de palabras de sentimiento. En la fase de fusión multimodal, se introduce una arquitectura de red de fusión jerárquica heterogénea, que primero utiliza un Módulo de Agregación Transformer para fusionar las modalidades visual y auditiva, mejorando las características semánticas de alto nivel de cada modalidad. Luego, un Módulo de Fusión de Atención Cruzada integra la modalidad textual con la fusión audiovisual. A continuación, se propone un Módulo de Fusión de Atención Basado en Características que permite la fusión ajustando dinámicamente los pesos de las representaciones combinadas y unimodales. Luego, predice la polaridad del sentimiento utilizando una red neuronal no lineal. Finalmente, los resultados experimentales en los conjuntos de datos MOSI-SpeechBrain, MOSI-IBM y MOSI-iFlytek muestran que el MSWOHHF supera a varios baselines, demostrando un mejor rendimiento.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro