logo móvil
Contáctanos

Red de Atención Cruzada de Doble Rama para el Reconocimiento de Microexpresiones con Variantes del Transformador

Autores: Xie, Zhihua; Zhao, Chuwei

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Red de Atención Cruzada de Doble Rama para el Reconocimiento de Microexpresiones con Variantes del Transformador


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Microexpresión
Red neuronal convolucional
Variantes de Transformer
Arquitectura de doble rama
MER
Flujo óptico

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 24

Citaciones: Sin citaciones


Descripción
Una microexpresión (ME), como una expresión facial espontánea, generalmente ocurre instantáneamente y es difícil de disimular después de un evento que provoca emociones. Numerosos modelos basados en redes neuronales convolucionales (CNN) han sido ampliamente explorados para reconocer MEs por su fuerte capacidad de representación de características locales en imágenes. Sin embargo, la principal desventaja de los métodos actuales es su incapacidad para extraer completamente información contextual holística de las imágenes de ME. Para lograr una representación eficiente del aprendizaje de ME desde diversas perspectivas, este artículo utiliza variantes de Transformer como la columna vertebral principal y la arquitectura de doble rama como el marco principal para extraer características contextuales multi-modales significativas para el reconocimiento de ME (MER). La primera rama utiliza un operador de flujo óptico para facilitar la extracción de información de movimiento entre secuencias de ME, y los mapas de flujo óptico correspondientes se alimentan al Transformer Swin para adquirir una representación espacial de movimiento. La segunda rama envía directamente el fotograma ápice en un clip de ME a Mobile ViT (Vision Transformer), que puede capturar las características locales-globales de MEs. Más importante aún, para lograr la fusión óptima de flujos de características, se diseña un bloque de atención cruzada (CAB) para interactuar con la característica extraída por cada rama para una fusión de aprendizaje adaptativa. Las extensas comparaciones experimentales en tres benchmarks de ME disponibles públicamente muestran que el método propuesto supera a los métodos de MER existentes y logra una precisión del 81.6% en la base de datos combinada.

Otros recursos que podrían interesarte

Temas Virtualpro