Mezcla de variantes de atención para fusión modal en análisis de sentimientos multimodal

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mezcla de variantes de atención para fusión modal en análisis de sentimientos multimodal

Autores: He, Chao; Zhang, Xinghua; Song, Dongqing; Shen, Yingshan; Mao, Chengjie; Wen, Huosheng; Zhu, Dingju; Cai, Lihua

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Mezcla de variantes de atención para fusión modal en análisis de sentimientos multimodal

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Popularización

Acceso a la red

Teléfonos inteligentes

Datos multimodales

Análisis de sentimientos

Aprendizaje profundo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

Con la popularización de un mejor acceso a la red y la penetración de teléfonos inteligentes personales en el mundo actual, la explosión de datos multimodales, en particular mensajes de video con opiniones, ha creado demandas urgentes e inmensas oportunidades para el Análisis de Sentimientos Multi-Modal (MSA). El aprendizaje profundo con mecanismos de atención ha servido como técnica fundamental para la mayoría de los modelos MSA de vanguardia debido a su capacidad para aprender relaciones complejas inter e intra-modales entre diferentes modalidades integradas en mensajes de video, tanto temporal como espacialmente. Sin embargo, la fusión modal sigue siendo un desafío importante debido al vasto espacio de características creado por las interacciones entre diferentes modalidades de datos. Para abordar el desafío de la fusión modal, proponemos un algoritmo MSA basado en aprendizaje profundo y mecanismos de atención, denominado Mezcla de Variantes de Atención para la Fusión Modal (MAVMF). El algoritmo MAVMF incluye un proceso de dos etapas: en la primera etapa, se aplica auto-atención para extraer efectivamente características de imagen y texto, y las relaciones de dependencia en el contexto del discurso de video son capturadas por un módulo neuronal recurrente bidireccional con compuertas; en la segunda etapa, se aprovechan cuatro variantes de atención multimodal para aprender las contribuciones emocionales de características importantes de diferentes modalidades. Nuestro enfoque propuesto es de extremo a extremo y ha demostrado lograr un rendimiento superior a los algoritmos de vanguardia cuando se prueba con dos de los conjuntos de datos públicos más grandes, CMU-MOSI y CMU-MOSEI.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro