El efecto de diferentes arquitecturas de red profunda en el seguimiento de la mirada basado en CNN

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

El efecto de diferentes arquitecturas de red profunda en el seguimiento de la mirada basado en CNN

Autores: Chen, Hui-Hui; Hwang, Bor-Jiunn; Wu, Jung-Shyr; Liu, Po-Ting

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico

2020

El efecto de diferentes arquitecturas de red profunda en el seguimiento de la mirada basado en CNN

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Capas convolucionales

Normalización por lotes

Capa de promedio global

Sistema de seguimiento de la mirada

Red neuronal

Seguidor de ojos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones

En este documento, exploramos el efecto de utilizar diferentes capas convolucionales, normalización de lotes y la capa de promediado global en un sistema de seguimiento de la mirada basado en una red neuronal convolucional (CNN). Se propone un método novedoso para etiquetar las imágenes faciales de los participantes como puntos de mirada recuperados del rastreador ocular mientras ven videos para construir un conjunto de datos de entrenamiento que se acerque al comportamiento visual humano. Los participantes pueden mover libremente la cabeza; por lo tanto, se pueden obtener las imágenes más reales y naturales sin demasiadas restricciones. Los datos etiquetados se clasifican según las coordenadas de la mirada y el área de interés en la pantalla. Por lo tanto, se aplican diversas arquitecturas de red para estimar y comparar los efectos, incluido el número de capas convolucionales, normalización de lotes (BN) y la capa de promediado global (GAP) en lugar de la capa completamente conectada. Se utilizan tres esquemas, incluida la imagen de un solo ojo, la imagen de doble ojo y la imagen facial, con aumento de datos para alimentar la red neuronal y entrenar y evaluar la eficiencia. La imagen de entrada del ojo o la cara para un sistema de seguimiento ocular es principalmente una imagen de tamaño pequeño con relativamente pocas características. Los resultados muestran que BN y GAP son útiles para superar el problema de entrenar modelos y para reducir la cantidad de parámetros de la red. Se muestra que la precisión mejora significativamente al usar GAP y BN al mismo tiempo. En general, el esquema facial tiene una precisión más alta de 0.883 cuando se utilizan BN y GAP al mismo tiempo. Además, en comparación con el conjunto de capas completamente conectadas a 512 casos, el número de parámetros se reduce en menos del 50% y la precisión mejora aproximadamente un 2%. Una comparación de precisión de detección de nuestro modelo con los métodos existentes de George y Routray muestra que nuestro método propuesto logra una mejor precisión de predicción de más del 6%.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro