Método de estimación de mirada basado en apariencia utilizando red diferencial temporal del transformador estático
Autores: Li, Yujie; Huang, Longzhao; Chen, Jiahui; Wang, Xiwen; Tan, Benying
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Método de estimación de mirada basado en apariencia utilizando red diferencial temporal del transformador estático
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Comportamiento de la mirada
Interacción humano-computadora
Técnicas de aprendizaje profundo
Fusión de características
Características dinámicas
Red neuronal recurrente
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
El comportamiento de la mirada es una información importante e no invasiva en la interacción humano-computadora que desempeña un papel importante en muchos campos, incluyendo la transferencia de habilidades, la psicología y la interacción humano-computadora. Recientemente, la mejora del rendimiento de la estimación de la mirada basada en la apariencia, utilizando técnicas de aprendizaje profundo, ha atraído cada vez más atención: sin embargo, varios problemas clave en estos métodos de estimación de la mirada basados en aprendizaje profundo permanecen. Primero, la etapa de fusión de características no se considera completamente: los métodos existentes simplemente concatenan las diferentes características obtenidas en una característica, sin considerar su relación interna. En segundo lugar, las características dinámicas pueden ser difíciles de aprender, debido al proceso de extracción inestable de características dinámicas ambiguamente definidas. En este estudio, proponemos un método novedoso para abordar los problemas de fusión de características y extracción de características dinámicas. Proponemos el módulo transformador estático (STM), que utiliza un mecanismo de autoatención de múltiples cabezas para fusionar características oculares detalladas y características faciales de grano grueso. Además, proponemos una innovadora celda de red neuronal recurrente (RNN), es decir, el módulo diferencial temporal (TDM), que se puede utilizar para extraer características dinámicas. Integramos el STM y el TDM en el transformador estático con una red diferencial temporal (STTDN). Evaluamos el rendimiento del STTDN, utilizando dos conjuntos de datos disponibles públicamente (MPIIFaceGaze y Eyediap), y demostramos la efectividad del STM y el TDM. Nuestros resultados muestran que el STTDN propuesto superó a los métodos de vanguardia, incluido el de Eyediap (en un 2.9%).
Descripción
El comportamiento de la mirada es una información importante e no invasiva en la interacción humano-computadora que desempeña un papel importante en muchos campos, incluyendo la transferencia de habilidades, la psicología y la interacción humano-computadora. Recientemente, la mejora del rendimiento de la estimación de la mirada basada en la apariencia, utilizando técnicas de aprendizaje profundo, ha atraído cada vez más atención: sin embargo, varios problemas clave en estos métodos de estimación de la mirada basados en aprendizaje profundo permanecen. Primero, la etapa de fusión de características no se considera completamente: los métodos existentes simplemente concatenan las diferentes características obtenidas en una característica, sin considerar su relación interna. En segundo lugar, las características dinámicas pueden ser difíciles de aprender, debido al proceso de extracción inestable de características dinámicas ambiguamente definidas. En este estudio, proponemos un método novedoso para abordar los problemas de fusión de características y extracción de características dinámicas. Proponemos el módulo transformador estático (STM), que utiliza un mecanismo de autoatención de múltiples cabezas para fusionar características oculares detalladas y características faciales de grano grueso. Además, proponemos una innovadora celda de red neuronal recurrente (RNN), es decir, el módulo diferencial temporal (TDM), que se puede utilizar para extraer características dinámicas. Integramos el STM y el TDM en el transformador estático con una red diferencial temporal (STTDN). Evaluamos el rendimiento del STTDN, utilizando dos conjuntos de datos disponibles públicamente (MPIIFaceGaze y Eyediap), y demostramos la efectividad del STM y el TDM. Nuestros resultados muestran que el STTDN propuesto superó a los métodos de vanguardia, incluido el de Eyediap (en un 2.9%).