Gaze-swin: mejorando la estimación de la mirada con una red híbrida CNN-transformer y mecanismo dropkey

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Gaze-swin: mejorando la estimación de la mirada con una red híbrida CNN-transformer y mecanismo dropkey

Autores: Zhao, Ruijie; Wang, Yuhuan; Luo, Sihui; Shou, Suyao; Tang, Pinyan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Gaze-swin: mejorando la estimación de la mirada con una red híbrida CNN-transformer y mecanismo dropkey

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Estimación de la mirada

Transformador visual

Transformador Swin

Arquitectura CNN-Transformer

DA-Attention

Conjuntos de datos de referencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones

La estimación de la mirada, que busca revelar hacia dónde mira una persona, proporciona una pista crucial para comprender las intenciones y comportamientos humanos. Recientemente, Visual Transformer ha logrado resultados prometedores en la estimación de la mirada. Sin embargo, dividir las imágenes faciales en parches compromete la integridad de la estructura de la imagen, lo que limita el rendimiento de la inferencia. Para abordar este desafío, presentamos Gaze-Swin, un modelo de estimación de la mirada de extremo a extremo formado con una arquitectura de doble rama CNN-Transformer. En Gaze-Swin, adoptamos el Swin Transformer como la red de base debido a su efectividad en el manejo de dependencias a larga distancia y la extracción de características globales. Además, incorporamos una red neuronal convolucional como rama auxiliar para capturar características faciales locales y detalles de textura intrincados. Para mejorar aún más la robustez y abordar problemas de sobreajuste en la estimación de la mirada, reemplazamos la autoatención original en la rama Transformer con Dropkey Assisted Attention (DA-Attention). En particular, esta DA-Attention trata las claves en el bloque Transformer como unidades de eliminación y emplea un programa de tasa de eliminación de decaimiento para preservar representaciones cruciales de la mirada en capas más profundas. Experimentos exhaustivos en tres conjuntos de datos de referencia demuestran el rendimiento superior de nuestro método en comparación con el estado del arte.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro