logo móvil
Contáctanos

El efecto de diferentes arquitecturas de red profunda en el seguimiento de la mirada basado en CNN

Autores: Chen, Hui-Hui; Hwang, Bor-Jiunn; Wu, Jung-Shyr; Liu, Po-Ting

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

El efecto de diferentes arquitecturas de red profunda en el seguimiento de la mirada basado en CNN


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Capas convolucionales
Normalización por lotes
Capa de promedio global
Sistema de seguimiento de la mirada
Red neuronal
Seguidor de ojos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones


Descripción
En este documento, exploramos el efecto de utilizar diferentes capas convolucionales, normalización de lotes y la capa de promediado global en un sistema de seguimiento de la mirada basado en una red neuronal convolucional (CNN). Se propone un método novedoso para etiquetar las imágenes faciales de los participantes como puntos de mirada recuperados del rastreador ocular mientras ven videos para construir un conjunto de datos de entrenamiento que se acerque al comportamiento visual humano. Los participantes pueden mover libremente la cabeza; por lo tanto, se pueden obtener las imágenes más reales y naturales sin demasiadas restricciones. Los datos etiquetados se clasifican según las coordenadas de la mirada y el área de interés en la pantalla. Por lo tanto, se aplican diversas arquitecturas de red para estimar y comparar los efectos, incluido el número de capas convolucionales, normalización de lotes (BN) y la capa de promediado global (GAP) en lugar de la capa completamente conectada. Se utilizan tres esquemas, incluida la imagen de un solo ojo, la imagen de doble ojo y la imagen facial, con aumento de datos para alimentar la red neuronal y entrenar y evaluar la eficiencia. La imagen de entrada del ojo o la cara para un sistema de seguimiento ocular es principalmente una imagen de tamaño pequeño con relativamente pocas características. Los resultados muestran que BN y GAP son útiles para superar el problema de entrenar modelos y para reducir la cantidad de parámetros de la red. Se muestra que la precisión mejora significativamente al usar GAP y BN al mismo tiempo. En general, el esquema facial tiene una precisión más alta de 0.883 cuando se utilizan BN y GAP al mismo tiempo. Además, en comparación con el conjunto de capas completamente conectadas a 512 casos, el número de parámetros se reduce en menos del 50% y la precisión mejora aproximadamente un 2%. Una comparación de precisión de detección de nuestro modelo con los métodos existentes de George y Routray muestra que nuestro método propuesto logra una mejor precisión de predicción de más del 6%.

Otros recursos que podrían interesarte

Temas Virtualpro