Un modelo de predicción de saliencia basado en la reparametrización y el mecanismo de atención de canal
Autores: Yan, Fei; Wang, Zhiliang; Qi, Siyu; Xiao, Ruoxiu
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un modelo de predicción de saliencia basado en la reparametrización y el mecanismo de atención de canal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Modelos de saliencia profunda
Visión humana
Modelos profundos
Información de alto nivel
Red de predicción de saliencia multinivel
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
Los modelos de saliencia profunda pueden imitar efectivamente el mecanismo de atención de la visión humana y funcionan considerablemente mejor que los modelos clásicos que dependen de características hechas a mano. Sin embargo, los modelos profundos también requieren información de nivel superior, como contexto o contenido emocional, para acercarse aún más al rendimiento humano. Por lo tanto, este estudio propone una red de predicción de saliencia multiescala que tiene como objetivo utilizar una combinación de información espacial y de canal para encontrar posibles características de alto nivel, mejorando aún más el rendimiento de un modelo de saliencia. En primer lugar, utilizamos una red de estilo VGG con un bloque de identidad como arquitectura principal de la red. Con la ayuda de la reparametrización, podemos obtener características ricas similares a las redes multinivel y reducir efectivamente el costo computacional. En segundo lugar, se diseña un subred con un mecanismo de atención de canal para encontrar regiones de saliencia potenciales y posible información semántica de alto nivel en una imagen. Finalmente, las características espaciales de la imagen y un vector de mejora de canal se combinan después de la cuantización para mejorar el rendimiento general del modelo. En comparación con los modelos clásicos y otros modelos profundos, nuestro modelo muestra un rendimiento general superior.
Descripción
Los modelos de saliencia profunda pueden imitar efectivamente el mecanismo de atención de la visión humana y funcionan considerablemente mejor que los modelos clásicos que dependen de características hechas a mano. Sin embargo, los modelos profundos también requieren información de nivel superior, como contexto o contenido emocional, para acercarse aún más al rendimiento humano. Por lo tanto, este estudio propone una red de predicción de saliencia multiescala que tiene como objetivo utilizar una combinación de información espacial y de canal para encontrar posibles características de alto nivel, mejorando aún más el rendimiento de un modelo de saliencia. En primer lugar, utilizamos una red de estilo VGG con un bloque de identidad como arquitectura principal de la red. Con la ayuda de la reparametrización, podemos obtener características ricas similares a las redes multinivel y reducir efectivamente el costo computacional. En segundo lugar, se diseña un subred con un mecanismo de atención de canal para encontrar regiones de saliencia potenciales y posible información semántica de alto nivel en una imagen. Finalmente, las características espaciales de la imagen y un vector de mejora de canal se combinan después de la cuantización para mejorar el rendimiento general del modelo. En comparación con los modelos clásicos y otros modelos profundos, nuestro modelo muestra un rendimiento general superior.