Mecanismo de atención y seguimiento de la mirada en tiempo real basado en memoria a largo plazo bidireccional
Autores: Dai, Lihong; Liu, Jinguo; Ju, Zhaojie
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mecanismo de atención y seguimiento de la mirada en tiempo real basado en memoria a largo plazo bidireccional
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Mecanismos de atención
Redes LSTM
Método de seguimiento de la mirada en tiempo real
SpatiotemporalAM
Redes neuronales convolucionales
Bi-LSTM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
Para mejorar la precisión del seguimiento de la mirada en tiempo real, se estudian en profundidad varios mecanismos de atención y redes LSTM (memoria a corto y largo plazo) para cuadros de video continuos dinámicos en el documento. Se propone un método de seguimiento de la mirada en tiempo real (SpatiotemporalAM) basado en mecanismo de atención y LSTM bidireccional (Bi-LSTM). En primer lugar, se utilizan redes neuronales convolucionales (CNN) para extraer las características espaciales de cada imagen. Luego, se adopta Bi-LSTM para obtener las características temporales dinámicas entre cuadros continuos para aprovechar la información de contexto pasada y futura. Después, las características espaciotemporales extraídas se fusionan mediante el mecanismo de atención de salida (OAM), lo que mejora la precisión del seguimiento de la mirada. Los modelos con OAM se comparan con los que tienen mecanismo de autoatención (SAM), lo que confirma las ventajas de los primeros en precisión y rendimiento en tiempo real. Al mismo tiempo, se toman una serie de medidas para mejorar la precisión, como el uso de la similitud del coseno en la función de pérdida y ResNet50 con bloques residuales de cuello de botella como red base. Se realizan una gran cantidad de experimentos en las bases de datos públicas de seguimiento de la mirada Gaze360 y GazeCapture para verificar la efectividad, el rendimiento en tiempo real y la capacidad de generalización del enfoque propuesto de seguimiento de la mirada.
Descripción
Para mejorar la precisión del seguimiento de la mirada en tiempo real, se estudian en profundidad varios mecanismos de atención y redes LSTM (memoria a corto y largo plazo) para cuadros de video continuos dinámicos en el documento. Se propone un método de seguimiento de la mirada en tiempo real (SpatiotemporalAM) basado en mecanismo de atención y LSTM bidireccional (Bi-LSTM). En primer lugar, se utilizan redes neuronales convolucionales (CNN) para extraer las características espaciales de cada imagen. Luego, se adopta Bi-LSTM para obtener las características temporales dinámicas entre cuadros continuos para aprovechar la información de contexto pasada y futura. Después, las características espaciotemporales extraídas se fusionan mediante el mecanismo de atención de salida (OAM), lo que mejora la precisión del seguimiento de la mirada. Los modelos con OAM se comparan con los que tienen mecanismo de autoatención (SAM), lo que confirma las ventajas de los primeros en precisión y rendimiento en tiempo real. Al mismo tiempo, se toman una serie de medidas para mejorar la precisión, como el uso de la similitud del coseno en la función de pérdida y ResNet50 con bloques residuales de cuello de botella como red base. Se realizan una gran cantidad de experimentos en las bases de datos públicas de seguimiento de la mirada Gaze360 y GazeCapture para verificar la efectividad, el rendimiento en tiempo real y la capacidad de generalización del enfoque propuesto de seguimiento de la mirada.