logo móvil
Contáctanos

Reconocimiento de emociones multimodal significativo basado en la arquitectura de transformador de gráfico de cápsulas

Autores: Filali, Hajar; Boulealam, Chafik; El Fazazy, Khalid; Mahraz, Adnane Mohamed; Tairi, Hamid; Riffi, Jamal

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Reconocimiento de emociones multimodal significativo basado en la arquitectura de transformador de gráfico de cápsulas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Desarrollo
Computadoras emocionalmente inteligentes
Reconocimiento de emociones
Entradas multimodales
Aprendizaje profundo
Modelo de emoción multimodal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El desarrollo de computadoras emocionalmente inteligentes depende del reconocimiento de emociones basado en entradas multimodales más ricas, como texto, habla y señales visuales, ya que múltiples modalidades se complementan entre sí. La efectividad de las relaciones complejas entre modalidades para el reconocimiento de emociones ha sido demostrada, pero estas relaciones aún están en gran medida inexploradas. Varios mecanismos de fusión que utilizan información simplemente concatenada han sido la base de investigaciones anteriores en el aprendizaje de representaciones multimodales para la clasificación de emociones, en lugar de aprovechar completamente los beneficios del aprendizaje profundo. En este artículo, se propone un modelo único de emoción multimodal profundo, que utiliza una red neuronal significativa para aprender representaciones multimodales significativas mientras clasifica datos. Específicamente, el modelo propuesto concatena entradas multimodales utilizando una red neuronal convolucional gráfica para extraer la modalidad acústica, una red de cápsulas para generar la modalidad textual y un transformador visual para adquirir la modalidad visual. A pesar de la efectividad de MNN, lo hemos utilizado como una innovación metodológica que se alimentará con los parámetros vectoriales generados previamente para producir mejores resultados predictivos. Nuestro enfoque sugerido para un reconocimiento de emociones multimodal más preciso ha sido demostrado a través de extensas examinaciones, produciendo resultados de vanguardia con precisiones del 69% y 56% en dos conjuntos de datos públicos, MELD y MOSEI, respectivamente.

Otros recursos que podrían interesarte

Temas Virtualpro