Reconocimiento de emociones multimodal significativo basado en la arquitectura de transformador de gráfico de cápsulas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Reconocimiento de emociones multimodal significativo basado en la arquitectura de transformador de gráfico de cápsulas

Autores: Filali, Hajar; Boulealam, Chafik; El Fazazy, Khalid; Mahraz, Adnane Mohamed; Tairi, Hamid; Riffi, Jamal

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Reconocimiento de emociones multimodal significativo basado en la arquitectura de transformador de gráfico de cápsulas

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Desarrollo

Computadoras emocionalmente inteligentes

Reconocimiento de emociones

Entradas multimodales

Aprendizaje profundo

Modelo de emoción multimodal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El desarrollo de computadoras emocionalmente inteligentes depende del reconocimiento de emociones basado en entradas multimodales más ricas, como texto, habla y señales visuales, ya que múltiples modalidades se complementan entre sí. La efectividad de las relaciones complejas entre modalidades para el reconocimiento de emociones ha sido demostrada, pero estas relaciones aún están en gran medida inexploradas. Varios mecanismos de fusión que utilizan información simplemente concatenada han sido la base de investigaciones anteriores en el aprendizaje de representaciones multimodales para la clasificación de emociones, en lugar de aprovechar completamente los beneficios del aprendizaje profundo. En este artículo, se propone un modelo único de emoción multimodal profundo, que utiliza una red neuronal significativa para aprender representaciones multimodales significativas mientras clasifica datos. Específicamente, el modelo propuesto concatena entradas multimodales utilizando una red neuronal convolucional gráfica para extraer la modalidad acústica, una red de cápsulas para generar la modalidad textual y un transformador visual para adquirir la modalidad visual. A pesar de la efectividad de MNN, lo hemos utilizado como una innovación metodológica que se alimentará con los parámetros vectoriales generados previamente para producir mejores resultados predictivos. Nuestro enfoque sugerido para un reconocimiento de emociones multimodal más preciso ha sido demostrado a través de extensas examinaciones, produciendo resultados de vanguardia con precisiones del 69% y 56% en dos conjuntos de datos públicos, MELD y MOSEI, respectivamente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro