Mezcla de variantes de atención para fusión modal en análisis de sentimientos multimodal
Autores: He, Chao; Zhang, Xinghua; Song, Dongqing; Shen, Yingshan; Mao, Chengjie; Wen, Huosheng; Zhu, Dingju; Cai, Lihua
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mezcla de variantes de atención para fusión modal en análisis de sentimientos multimodal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Popularización
Acceso a la red
Teléfonos inteligentes
Datos multimodales
Análisis de sentimientos
Aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Con la popularización de un mejor acceso a la red y la penetración de teléfonos inteligentes personales en el mundo actual, la explosión de datos multimodales, en particular mensajes de video con opiniones, ha creado demandas urgentes e inmensas oportunidades para el Análisis de Sentimientos Multi-Modal (MSA). El aprendizaje profundo con mecanismos de atención ha servido como técnica fundamental para la mayoría de los modelos MSA de vanguardia debido a su capacidad para aprender relaciones complejas inter e intra-modales entre diferentes modalidades integradas en mensajes de video, tanto temporal como espacialmente. Sin embargo, la fusión modal sigue siendo un desafío importante debido al vasto espacio de características creado por las interacciones entre diferentes modalidades de datos. Para abordar el desafío de la fusión modal, proponemos un algoritmo MSA basado en aprendizaje profundo y mecanismos de atención, denominado Mezcla de Variantes de Atención para la Fusión Modal (MAVMF). El algoritmo MAVMF incluye un proceso de dos etapas: en la primera etapa, se aplica auto-atención para extraer efectivamente características de imagen y texto, y las relaciones de dependencia en el contexto del discurso de video son capturadas por un módulo neuronal recurrente bidireccional con compuertas; en la segunda etapa, se aprovechan cuatro variantes de atención multimodal para aprender las contribuciones emocionales de características importantes de diferentes modalidades. Nuestro enfoque propuesto es de extremo a extremo y ha demostrado lograr un rendimiento superior a los algoritmos de vanguardia cuando se prueba con dos de los conjuntos de datos públicos más grandes, CMU-MOSI y CMU-MOSEI.
Descripción
Con la popularización de un mejor acceso a la red y la penetración de teléfonos inteligentes personales en el mundo actual, la explosión de datos multimodales, en particular mensajes de video con opiniones, ha creado demandas urgentes e inmensas oportunidades para el Análisis de Sentimientos Multi-Modal (MSA). El aprendizaje profundo con mecanismos de atención ha servido como técnica fundamental para la mayoría de los modelos MSA de vanguardia debido a su capacidad para aprender relaciones complejas inter e intra-modales entre diferentes modalidades integradas en mensajes de video, tanto temporal como espacialmente. Sin embargo, la fusión modal sigue siendo un desafío importante debido al vasto espacio de características creado por las interacciones entre diferentes modalidades de datos. Para abordar el desafío de la fusión modal, proponemos un algoritmo MSA basado en aprendizaje profundo y mecanismos de atención, denominado Mezcla de Variantes de Atención para la Fusión Modal (MAVMF). El algoritmo MAVMF incluye un proceso de dos etapas: en la primera etapa, se aplica auto-atención para extraer efectivamente características de imagen y texto, y las relaciones de dependencia en el contexto del discurso de video son capturadas por un módulo neuronal recurrente bidireccional con compuertas; en la segunda etapa, se aprovechan cuatro variantes de atención multimodal para aprender las contribuciones emocionales de características importantes de diferentes modalidades. Nuestro enfoque propuesto es de extremo a extremo y ha demostrado lograr un rendimiento superior a los algoritmos de vanguardia cuando se prueba con dos de los conjuntos de datos públicos más grandes, CMU-MOSI y CMU-MOSEI.