Gaze-swin: mejorando la estimación de la mirada con una red híbrida CNN-transformer y mecanismo dropkey
Autores: Zhao, Ruijie; Wang, Yuhuan; Luo, Sihui; Shou, Suyao; Tang, Pinyan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Gaze-swin: mejorando la estimación de la mirada con una red híbrida CNN-transformer y mecanismo dropkey
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Estimación de la mirada
Transformador visual
Transformador Swin
Arquitectura CNN-Transformer
DA-Attention
Conjuntos de datos de referencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
La estimación de la mirada, que busca revelar hacia dónde mira una persona, proporciona una pista crucial para comprender las intenciones y comportamientos humanos. Recientemente, Visual Transformer ha logrado resultados prometedores en la estimación de la mirada. Sin embargo, dividir las imágenes faciales en parches compromete la integridad de la estructura de la imagen, lo que limita el rendimiento de la inferencia. Para abordar este desafío, presentamos Gaze-Swin, un modelo de estimación de la mirada de extremo a extremo formado con una arquitectura de doble rama CNN-Transformer. En Gaze-Swin, adoptamos el Swin Transformer como la red de base debido a su efectividad en el manejo de dependencias a larga distancia y la extracción de características globales. Además, incorporamos una red neuronal convolucional como rama auxiliar para capturar características faciales locales y detalles de textura intrincados. Para mejorar aún más la robustez y abordar problemas de sobreajuste en la estimación de la mirada, reemplazamos la autoatención original en la rama Transformer con Dropkey Assisted Attention (DA-Attention). En particular, esta DA-Attention trata las claves en el bloque Transformer como unidades de eliminación y emplea un programa de tasa de eliminación de decaimiento para preservar representaciones cruciales de la mirada en capas más profundas. Experimentos exhaustivos en tres conjuntos de datos de referencia demuestran el rendimiento superior de nuestro método en comparación con el estado del arte.
Descripción
La estimación de la mirada, que busca revelar hacia dónde mira una persona, proporciona una pista crucial para comprender las intenciones y comportamientos humanos. Recientemente, Visual Transformer ha logrado resultados prometedores en la estimación de la mirada. Sin embargo, dividir las imágenes faciales en parches compromete la integridad de la estructura de la imagen, lo que limita el rendimiento de la inferencia. Para abordar este desafío, presentamos Gaze-Swin, un modelo de estimación de la mirada de extremo a extremo formado con una arquitectura de doble rama CNN-Transformer. En Gaze-Swin, adoptamos el Swin Transformer como la red de base debido a su efectividad en el manejo de dependencias a larga distancia y la extracción de características globales. Además, incorporamos una red neuronal convolucional como rama auxiliar para capturar características faciales locales y detalles de textura intrincados. Para mejorar aún más la robustez y abordar problemas de sobreajuste en la estimación de la mirada, reemplazamos la autoatención original en la rama Transformer con Dropkey Assisted Attention (DA-Attention). En particular, esta DA-Attention trata las claves en el bloque Transformer como unidades de eliminación y emplea un programa de tasa de eliminación de decaimiento para preservar representaciones cruciales de la mirada en capas más profundas. Experimentos exhaustivos en tres conjuntos de datos de referencia demuestran el rendimiento superior de nuestro método en comparación con el estado del arte.