Módulo de Multi-Attención para el Reconocimiento Dinámico de Emociones Faciales
Autores: Zhi, Junnan; Song, Tingting; Yu, Kang; Yuan, Fengen; Wang, Huaqiang; Hu, Guangyang; Yang, Hao
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Módulo de Multi-Attención para el Reconocimiento Dinámico de Emociones Faciales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Video
Reconocimiento de emociones faciales
Modelos de aprendizaje profundo
Módulos de atención
Capa de convolución
Capa de agrupamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El reconocimiento de emociones faciales dinámicas basado en video (FER) es una tarea desafiante, ya que se deben capturar y distinguir pequeños movimientos faciales que representan cambios emocionales mientras se ignoran las diferencias faciales de diferentes objetos. Los estudios recientes de vanguardia han adoptado generalmente métodos más complejos para resolver esta tarea, como modelos de aprendizaje profundo a gran escala o análisis multimodal con referencia a múltiples submodelos. De acuerdo con las características de la tarea de FER y las deficiencias de los métodos existentes, en este artículo proponemos un método ligero y diseñamos tres módulos de atención que pueden insertarse de manera flexible en la red principal. La información clave para las tres dimensiones de espacio, canal y tiempo se extrae mediante capas de convolución, capas de agrupamiento, percepciones de múltiples capas (MLP) y otros enfoques, y se generan pesos de atención. Al compartir parámetros en el mismo nivel, los tres módulos no añaden demasiados parámetros a la red mientras mejoran el enfoque en áreas específicas de la cara, la información de características efectivas de imágenes estáticas y los fotogramas clave. Los resultados experimentales en los conjuntos de datos CK+ y eNTERFACE"05 muestran que este método puede lograr una mayor precisión.
Descripción
El reconocimiento de emociones faciales dinámicas basado en video (FER) es una tarea desafiante, ya que se deben capturar y distinguir pequeños movimientos faciales que representan cambios emocionales mientras se ignoran las diferencias faciales de diferentes objetos. Los estudios recientes de vanguardia han adoptado generalmente métodos más complejos para resolver esta tarea, como modelos de aprendizaje profundo a gran escala o análisis multimodal con referencia a múltiples submodelos. De acuerdo con las características de la tarea de FER y las deficiencias de los métodos existentes, en este artículo proponemos un método ligero y diseñamos tres módulos de atención que pueden insertarse de manera flexible en la red principal. La información clave para las tres dimensiones de espacio, canal y tiempo se extrae mediante capas de convolución, capas de agrupamiento, percepciones de múltiples capas (MLP) y otros enfoques, y se generan pesos de atención. Al compartir parámetros en el mismo nivel, los tres módulos no añaden demasiados parámetros a la red mientras mejoran el enfoque en áreas específicas de la cara, la información de características efectivas de imágenes estáticas y los fotogramas clave. Los resultados experimentales en los conjuntos de datos CK+ y eNTERFACE"05 muestran que este método puede lograr una mayor precisión.