Estimación de la Mirada Guiada por Puntos de Referencia a través de Generación de Puntos Clave Condicional y Fusión de Atención Cruzada
Autores: Xu, Guanghui; Zhang, Xiaoyang; Zhao, Wanli; Mao, Zhongjie; Li, Yue; Li, Duantengchuan; Dong, Liangshan
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Estimación de la Mirada Guiada por Puntos de Referencia a través de Generación de Puntos Clave Condicional y Fusión de Atención Cruzada
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Estimación de la mirada
LGNet
Puntos clave
Información previa geométrica
Rendimiento de estimación
Generador de puntos clave de ojos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En la estimación de la mirada, los métodos convencionales existentes enfrentan desafíos significativos para capturar las estructuras finas de las regiones oculares, particularmente en ausencia de información geométrica previa explícita, lo que obstaculiza la precisión de la predicción de la mirada. Para abordar esta limitación, proponemos la red de estimación de la mirada guiada por puntos de referencia (LGNet), un método de estimación de la mirada guiado por puntos clave, que incorpora de manera efectiva información geométrica previa para mejorar el rendimiento de la estimación. El método propuesto comienza entrenando un generador de puntos clave de ojo en el conjunto de datos sintético UnityEyes utilizando un Autoencoder Variacional Condicional (CVAE). A continuación, introducimos un módulo de Fusión de Características Espaciales Simétricas (SSFF), combinado con un mecanismo de atención cruzada de doble flujo, para lograr una alineación semántica entre las características de los puntos clave y las características de la imagen facial extraídas utilizando ResNet50. Además, proponemos un módulo de Reajuste de Canal Controlado (GCR) para suprimir información redundante y amplificar las características críticas, mejorando así la respuesta general del modelo. Los resultados experimentales demuestran que LGNet supera a los métodos existentes en tres conjuntos de datos de referencia. El código para esta investigación ha sido puesto a disposición del público.
Descripción
En la estimación de la mirada, los métodos convencionales existentes enfrentan desafíos significativos para capturar las estructuras finas de las regiones oculares, particularmente en ausencia de información geométrica previa explícita, lo que obstaculiza la precisión de la predicción de la mirada. Para abordar esta limitación, proponemos la red de estimación de la mirada guiada por puntos de referencia (LGNet), un método de estimación de la mirada guiado por puntos clave, que incorpora de manera efectiva información geométrica previa para mejorar el rendimiento de la estimación. El método propuesto comienza entrenando un generador de puntos clave de ojo en el conjunto de datos sintético UnityEyes utilizando un Autoencoder Variacional Condicional (CVAE). A continuación, introducimos un módulo de Fusión de Características Espaciales Simétricas (SSFF), combinado con un mecanismo de atención cruzada de doble flujo, para lograr una alineación semántica entre las características de los puntos clave y las características de la imagen facial extraídas utilizando ResNet50. Además, proponemos un módulo de Reajuste de Canal Controlado (GCR) para suprimir información redundante y amplificar las características críticas, mejorando así la respuesta general del modelo. Los resultados experimentales demuestran que LGNet supera a los métodos existentes en tres conjuntos de datos de referencia. El código para esta investigación ha sido puesto a disposición del público.