Ws-am: mapa de atención débilmente supervisado para reconocimiento de escenas
Autores: Xia, Shifeng; Zeng, Jiexian; Leng, Lu; Fu, Xiang
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Ws-am: mapa de atención débilmente supervisado para reconocimiento de escenas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Redes neuronales convolucionales
Reconocimiento de escenas
Características
Mapa de atención
Regiones discriminativas
CNN
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Recientemente, las redes neuronales convolucionales (CNN) han logrado un gran éxito en el reconocimiento de escenas. En comparación con las características tradicionales creadas a mano, las CNN pueden usarse para extraer características más robustas y generalizadas para el reconocimiento de escenas. Sin embargo, los métodos de reconocimiento de escenas existentes basados en CNN no tienen suficientemente en cuenta la relación entre las regiones de la imagen y las categorías al elegir regiones locales, lo que resulta en muchas regiones locales redundantes y degrada la precisión del reconocimiento. En este artículo, proponemos un método efectivo para explorar regiones discriminativas de la imagen de la escena. Nuestro método utiliza la técnica de mapeo de activación de clases ponderadas por gradiente (Grad-CAM) e información débilmente supervisada para generar el mapa de atención (AM) de las imágenes de la escena, denominado WS-AM-mapa de atención débilmente supervisado. Las regiones donde la media local y el valor del centro local son grandes en el AM corresponden a las regiones discriminativas útiles para el reconocimiento de escenas. Muestreamos regiones discriminativas en múltiples escalas y extraímos las características de regiones a gran y pequeña escala con dos CNN pre-entrenadas diferentes, respectivamente. Las características de dos escalas diferentes se agregaron mediante la codificación mejorada del vector de descriptor agregado localmente (VLAD) y el max pooling, respectivamente. Finalmente, se utilizó la CNN pre-entrenada para extraer la característica global de la imagen en la capa completamente conectada (fc), y las características locales se combinaron con la característica global para obtener la representación de la imagen. Validamos la efectividad de nuestro método en tres conjuntos de datos de referencia: MIT Indoor 67, Scene 15 y UIUC Sports, y obtuvimos un 85.67%, 94.80% y 95.12% de precisión, respectivamente. En comparación con algunos métodos de vanguardia, el método WS-AM requiere menos regiones locales, por lo que tiene un mejor rendimiento en tiempo real.
Descripción
Recientemente, las redes neuronales convolucionales (CNN) han logrado un gran éxito en el reconocimiento de escenas. En comparación con las características tradicionales creadas a mano, las CNN pueden usarse para extraer características más robustas y generalizadas para el reconocimiento de escenas. Sin embargo, los métodos de reconocimiento de escenas existentes basados en CNN no tienen suficientemente en cuenta la relación entre las regiones de la imagen y las categorías al elegir regiones locales, lo que resulta en muchas regiones locales redundantes y degrada la precisión del reconocimiento. En este artículo, proponemos un método efectivo para explorar regiones discriminativas de la imagen de la escena. Nuestro método utiliza la técnica de mapeo de activación de clases ponderadas por gradiente (Grad-CAM) e información débilmente supervisada para generar el mapa de atención (AM) de las imágenes de la escena, denominado WS-AM-mapa de atención débilmente supervisado. Las regiones donde la media local y el valor del centro local son grandes en el AM corresponden a las regiones discriminativas útiles para el reconocimiento de escenas. Muestreamos regiones discriminativas en múltiples escalas y extraímos las características de regiones a gran y pequeña escala con dos CNN pre-entrenadas diferentes, respectivamente. Las características de dos escalas diferentes se agregaron mediante la codificación mejorada del vector de descriptor agregado localmente (VLAD) y el max pooling, respectivamente. Finalmente, se utilizó la CNN pre-entrenada para extraer la característica global de la imagen en la capa completamente conectada (fc), y las características locales se combinaron con la característica global para obtener la representación de la imagen. Validamos la efectividad de nuestro método en tres conjuntos de datos de referencia: MIT Indoor 67, Scene 15 y UIUC Sports, y obtuvimos un 85.67%, 94.80% y 95.12% de precisión, respectivamente. En comparación con algunos métodos de vanguardia, el método WS-AM requiere menos regiones locales, por lo que tiene un mejor rendimiento en tiempo real.