logo móvil
Contáctanos

Ws-am: mapa de atención débilmente supervisado para reconocimiento de escenas

Autores: Xia, Shifeng; Zeng, Jiexian; Leng, Lu; Fu, Xiang

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Ws-am: mapa de atención débilmente supervisado para reconocimiento de escenas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Redes neuronales convolucionales
Reconocimiento de escenas
Características
Mapa de atención
Regiones discriminativas
CNN

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
Recientemente, las redes neuronales convolucionales (CNN) han logrado un gran éxito en el reconocimiento de escenas. En comparación con las características tradicionales creadas a mano, las CNN pueden usarse para extraer características más robustas y generalizadas para el reconocimiento de escenas. Sin embargo, los métodos de reconocimiento de escenas existentes basados en CNN no tienen suficientemente en cuenta la relación entre las regiones de la imagen y las categorías al elegir regiones locales, lo que resulta en muchas regiones locales redundantes y degrada la precisión del reconocimiento. En este artículo, proponemos un método efectivo para explorar regiones discriminativas de la imagen de la escena. Nuestro método utiliza la técnica de mapeo de activación de clases ponderadas por gradiente (Grad-CAM) e información débilmente supervisada para generar el mapa de atención (AM) de las imágenes de la escena, denominado WS-AM-mapa de atención débilmente supervisado. Las regiones donde la media local y el valor del centro local son grandes en el AM corresponden a las regiones discriminativas útiles para el reconocimiento de escenas. Muestreamos regiones discriminativas en múltiples escalas y extraímos las características de regiones a gran y pequeña escala con dos CNN pre-entrenadas diferentes, respectivamente. Las características de dos escalas diferentes se agregaron mediante la codificación mejorada del vector de descriptor agregado localmente (VLAD) y el max pooling, respectivamente. Finalmente, se utilizó la CNN pre-entrenada para extraer la característica global de la imagen en la capa completamente conectada (fc), y las características locales se combinaron con la característica global para obtener la representación de la imagen. Validamos la efectividad de nuestro método en tres conjuntos de datos de referencia: MIT Indoor 67, Scene 15 y UIUC Sports, y obtuvimos un 85.67%, 94.80% y 95.12% de precisión, respectivamente. En comparación con algunos métodos de vanguardia, el método WS-AM requiere menos regiones locales, por lo que tiene un mejor rendimiento en tiempo real.

Otros recursos que podrían interesarte

Temas Virtualpro