Reconocimiento de emociones impulsado por el contexto: Integración de fusión de múltiples señales y mecanismos de atención para una mayor precisión en el conjunto de datos NCAER_S
Autores: Elkorchi, Merieme; Hdioud, Boutaina; Oulad Haj Thami, Rachid; Merzouk, Safae
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Reconocimiento de emociones impulsado por el contexto: Integración de fusión de múltiples señales y mecanismos de atención para una mayor precisión en el conjunto de datos NCAER_S
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Señales faciales
Postura corporal
Contexto
Redes neuronales
Señales contextuales
Mecanismos de atención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En los últimos años, la mayoría de los enfoques convencionales de reconocimiento de emociones se han concentrado principalmente en las señales faciales, a menudo pasando por alto fuentes complementarias de información como la postura corporal y el contexto. Esta limitación reduce su efectividad en entornos complejos y del mundo real. En este trabajo, presentamos un marco de reconocimiento de emociones de múltiples ramas que procesa por separado la información facial, corporal y contextual utilizando tres redes neuronales dedicadas. Para capturar mejor las señales contextuales, enmascaramos intencionadamente la cara y el cuerpo del sujeto principal dentro de la escena, lo que lleva al modelo a explorar elementos visuales alternativos que pueden transmitir estados emocionales. Para mejorar aún más la calidad de las características extraídas, integramos mecanismos de atención tanto de canal como espacial en la arquitectura de la red. Evaluado en el desafiante conjunto de datos NCAER-S, nuestro modelo logra una precisión del 56.42%, superando al estado del arte GLAMOUR-Net. Estos resultados destacan la efectividad de combinar la representación de múltiples señales y la extracción de características guiada por atención para un reconocimiento de emociones robusto en entornos no controlados. Los hallazgos también subrayan la importancia del reconocimiento preciso de emociones para la interacción humano-computadora, donde la detección afectiva permite que los sistemas se adapten a los usuarios y ofrezcan experiencias más efectivas.
Descripción
En los últimos años, la mayoría de los enfoques convencionales de reconocimiento de emociones se han concentrado principalmente en las señales faciales, a menudo pasando por alto fuentes complementarias de información como la postura corporal y el contexto. Esta limitación reduce su efectividad en entornos complejos y del mundo real. En este trabajo, presentamos un marco de reconocimiento de emociones de múltiples ramas que procesa por separado la información facial, corporal y contextual utilizando tres redes neuronales dedicadas. Para capturar mejor las señales contextuales, enmascaramos intencionadamente la cara y el cuerpo del sujeto principal dentro de la escena, lo que lleva al modelo a explorar elementos visuales alternativos que pueden transmitir estados emocionales. Para mejorar aún más la calidad de las características extraídas, integramos mecanismos de atención tanto de canal como espacial en la arquitectura de la red. Evaluado en el desafiante conjunto de datos NCAER-S, nuestro modelo logra una precisión del 56.42%, superando al estado del arte GLAMOUR-Net. Estos resultados destacan la efectividad de combinar la representación de múltiples señales y la extracción de características guiada por atención para un reconocimiento de emociones robusto en entornos no controlados. Los hallazgos también subrayan la importancia del reconocimiento preciso de emociones para la interacción humano-computadora, donde la detección afectiva permite que los sistemas se adapten a los usuarios y ofrezcan experiencias más efectivas.