Reconocimiento de emociones multimodal significativo basado en la arquitectura de transformador de gráfico de cápsulas
Autores: Filali, Hajar; Boulealam, Chafik; El Fazazy, Khalid; Mahraz, Adnane Mohamed; Tairi, Hamid; Riffi, Jamal
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Reconocimiento de emociones multimodal significativo basado en la arquitectura de transformador de gráfico de cápsulas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Desarrollo
Computadoras emocionalmente inteligentes
Reconocimiento de emociones
Entradas multimodales
Aprendizaje profundo
Modelo de emoción multimodal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El desarrollo de computadoras emocionalmente inteligentes depende del reconocimiento de emociones basado en entradas multimodales más ricas, como texto, habla y señales visuales, ya que múltiples modalidades se complementan entre sí. La efectividad de las relaciones complejas entre modalidades para el reconocimiento de emociones ha sido demostrada, pero estas relaciones aún están en gran medida inexploradas. Varios mecanismos de fusión que utilizan información simplemente concatenada han sido la base de investigaciones anteriores en el aprendizaje de representaciones multimodales para la clasificación de emociones, en lugar de aprovechar completamente los beneficios del aprendizaje profundo. En este artículo, se propone un modelo único de emoción multimodal profundo, que utiliza una red neuronal significativa para aprender representaciones multimodales significativas mientras clasifica datos. Específicamente, el modelo propuesto concatena entradas multimodales utilizando una red neuronal convolucional gráfica para extraer la modalidad acústica, una red de cápsulas para generar la modalidad textual y un transformador visual para adquirir la modalidad visual. A pesar de la efectividad de MNN, lo hemos utilizado como una innovación metodológica que se alimentará con los parámetros vectoriales generados previamente para producir mejores resultados predictivos. Nuestro enfoque sugerido para un reconocimiento de emociones multimodal más preciso ha sido demostrado a través de extensas examinaciones, produciendo resultados de vanguardia con precisiones del 69% y 56% en dos conjuntos de datos públicos, MELD y MOSEI, respectivamente.
Descripción
El desarrollo de computadoras emocionalmente inteligentes depende del reconocimiento de emociones basado en entradas multimodales más ricas, como texto, habla y señales visuales, ya que múltiples modalidades se complementan entre sí. La efectividad de las relaciones complejas entre modalidades para el reconocimiento de emociones ha sido demostrada, pero estas relaciones aún están en gran medida inexploradas. Varios mecanismos de fusión que utilizan información simplemente concatenada han sido la base de investigaciones anteriores en el aprendizaje de representaciones multimodales para la clasificación de emociones, en lugar de aprovechar completamente los beneficios del aprendizaje profundo. En este artículo, se propone un modelo único de emoción multimodal profundo, que utiliza una red neuronal significativa para aprender representaciones multimodales significativas mientras clasifica datos. Específicamente, el modelo propuesto concatena entradas multimodales utilizando una red neuronal convolucional gráfica para extraer la modalidad acústica, una red de cápsulas para generar la modalidad textual y un transformador visual para adquirir la modalidad visual. A pesar de la efectividad de MNN, lo hemos utilizado como una innovación metodológica que se alimentará con los parámetros vectoriales generados previamente para producir mejores resultados predictivos. Nuestro enfoque sugerido para un reconocimiento de emociones multimodal más preciso ha sido demostrado a través de extensas examinaciones, produciendo resultados de vanguardia con precisiones del 69% y 56% en dos conjuntos de datos públicos, MELD y MOSEI, respectivamente.