Ws-am: mapa de atención débilmente supervisado para reconocimiento de escenas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Ws-am: mapa de atención débilmente supervisado para reconocimiento de escenas

Autores: Xia, Shifeng; Zeng, Jiexian; Leng, Lu; Fu, Xiang

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico

2019

Ws-am: mapa de atención débilmente supervisado para reconocimiento de escenas

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Redes neuronales convolucionales

Reconocimiento de escenas

Características

Mapa de atención

Regiones discriminativas

CNN

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones

Recientemente, las redes neuronales convolucionales (CNN) han logrado un gran éxito en el reconocimiento de escenas. En comparación con las características tradicionales creadas a mano, las CNN pueden usarse para extraer características más robustas y generalizadas para el reconocimiento de escenas. Sin embargo, los métodos de reconocimiento de escenas existentes basados en CNN no tienen suficientemente en cuenta la relación entre las regiones de la imagen y las categorías al elegir regiones locales, lo que resulta en muchas regiones locales redundantes y degrada la precisión del reconocimiento. En este artículo, proponemos un método efectivo para explorar regiones discriminativas de la imagen de la escena. Nuestro método utiliza la técnica de mapeo de activación de clases ponderadas por gradiente (Grad-CAM) e información débilmente supervisada para generar el mapa de atención (AM) de las imágenes de la escena, denominado WS-AM-mapa de atención débilmente supervisado. Las regiones donde la media local y el valor del centro local son grandes en el AM corresponden a las regiones discriminativas útiles para el reconocimiento de escenas. Muestreamos regiones discriminativas en múltiples escalas y extraímos las características de regiones a gran y pequeña escala con dos CNN pre-entrenadas diferentes, respectivamente. Las características de dos escalas diferentes se agregaron mediante la codificación mejorada del vector de descriptor agregado localmente (VLAD) y el max pooling, respectivamente. Finalmente, se utilizó la CNN pre-entrenada para extraer la característica global de la imagen en la capa completamente conectada (fc), y las características locales se combinaron con la característica global para obtener la representación de la imagen. Validamos la efectividad de nuestro método en tres conjuntos de datos de referencia: MIT Indoor 67, Scene 15 y UIUC Sports, y obtuvimos un 85.67%, 94.80% y 95.12% de precisión, respectivamente. En comparación con algunos métodos de vanguardia, el método WS-AM requiere menos regiones locales, por lo que tiene un mejor rendimiento en tiempo real.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro