Red de Atención Cruzada de Doble Rama para el Reconocimiento de Microexpresiones con Variantes del Transformador

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Red de Atención Cruzada de Doble Rama para el Reconocimiento de Microexpresiones con Variantes del Transformador

Autores: Xie, Zhihua; Zhao, Chuwei

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Red de Atención Cruzada de Doble Rama para el Reconocimiento de Microexpresiones con Variantes del Transformador

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Microexpresión

Red neuronal convolucional

Variantes de Transformer

Arquitectura de doble rama

MER

Flujo óptico

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 24

Citaciones: Sin citaciones

Una microexpresión (ME), como una expresión facial espontánea, generalmente ocurre instantáneamente y es difícil de disimular después de un evento que provoca emociones. Numerosos modelos basados en redes neuronales convolucionales (CNN) han sido ampliamente explorados para reconocer MEs por su fuerte capacidad de representación de características locales en imágenes. Sin embargo, la principal desventaja de los métodos actuales es su incapacidad para extraer completamente información contextual holística de las imágenes de ME. Para lograr una representación eficiente del aprendizaje de ME desde diversas perspectivas, este artículo utiliza variantes de Transformer como la columna vertebral principal y la arquitectura de doble rama como el marco principal para extraer características contextuales multi-modales significativas para el reconocimiento de ME (MER). La primera rama utiliza un operador de flujo óptico para facilitar la extracción de información de movimiento entre secuencias de ME, y los mapas de flujo óptico correspondientes se alimentan al Transformer Swin para adquirir una representación espacial de movimiento. La segunda rama envía directamente el fotograma ápice en un clip de ME a Mobile ViT (Vision Transformer), que puede capturar las características locales-globales de MEs. Más importante aún, para lograr la fusión óptima de flujos de características, se diseña un bloque de atención cruzada (CAB) para interactuar con la característica extraída por cada rama para una fusión de aprendizaje adaptativa. Las extensas comparaciones experimentales en tres benchmarks de ME disponibles públicamente muestran que el método propuesto supera a los métodos de MER existentes y logra una precisión del 81.6% en la base de datos combinada.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro