Predicción de Saliencia Visual Basada en Aprendizaje Profundo
Autores: Ghariba, Bashir; Shehata, Mohamed S.; McGuire, Peter
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Predicción de Saliencia Visual Basada en Aprendizaje Profundo
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Movimiento ocular humano
Detección de saliencia visual
Redes neuronales
Aprendizaje profundo
Arquitectura de codificador-decodificador
Red VGG-16
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El movimiento del ojo humano es una de las funciones más importantes para entender nuestro entorno. Cuando un ojo humano procesa una escena, se enfoca rápidamente en las partes dominantes de la escena, comúnmente conocidas como detección de saliencia visual o predicción de atención visual. Recientemente, se han utilizado redes neuronales para predecir la saliencia visual. Este artículo propone una arquitectura de codificador-decodificador de aprendizaje profundo, basada en una técnica de transferencia de aprendizaje, para predecir la saliencia visual. En el modelo propuesto, se extraen características visuales a través de capas convolucionales de imágenes en bruto para predecir la saliencia visual. Además, el modelo propuesto utiliza la red VGG-16 para segmentación semántica, que utiliza una capa de clasificación de píxeles para predecir la etiqueta categórica de cada píxel en una imagen de entrada. El modelo propuesto se aplica a varios conjuntos de datos, incluidos TORONTO, MIT300, MIT1003 y DUT-OMRON, para ilustrar su eficiencia. Los resultados del modelo propuesto se comparan cuantitativa y cualitativamente con modelos de aprendizaje profundo clásicos y de última generación. Utilizando el modelo de aprendizaje profundo propuesto, se logra una precisión global de hasta el 96.22% en la predicción de la saliencia visual.
Descripción
El movimiento del ojo humano es una de las funciones más importantes para entender nuestro entorno. Cuando un ojo humano procesa una escena, se enfoca rápidamente en las partes dominantes de la escena, comúnmente conocidas como detección de saliencia visual o predicción de atención visual. Recientemente, se han utilizado redes neuronales para predecir la saliencia visual. Este artículo propone una arquitectura de codificador-decodificador de aprendizaje profundo, basada en una técnica de transferencia de aprendizaje, para predecir la saliencia visual. En el modelo propuesto, se extraen características visuales a través de capas convolucionales de imágenes en bruto para predecir la saliencia visual. Además, el modelo propuesto utiliza la red VGG-16 para segmentación semántica, que utiliza una capa de clasificación de píxeles para predecir la etiqueta categórica de cada píxel en una imagen de entrada. El modelo propuesto se aplica a varios conjuntos de datos, incluidos TORONTO, MIT300, MIT1003 y DUT-OMRON, para ilustrar su eficiencia. Los resultados del modelo propuesto se comparan cuantitativa y cualitativamente con modelos de aprendizaje profundo clásicos y de última generación. Utilizando el modelo de aprendizaje profundo propuesto, se logra una precisión global de hasta el 96.22% en la predicción de la saliencia visual.