logo móvil
Contáctanos

Mejorando la calidad de detección de objetos mediante la incorporación de contextos globales a través de la autoatención

Autores: Lee, Donghyeon; Kim, Joonyoung; Jung, Kyomin

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Mejorando la calidad de detección de objetos mediante la incorporación de contextos globales a través de la autoatención


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Mapas de características
Detectores de objetos
Contextos globales
Módulo de autoatención
Relaciones
Estructuras convolucionales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
Las estructuras totalmente convolucionales proporcionan mapas de características que adquieren contextos locales de una imagen al simplemente apilar numerosas capas convolucionales. Estas estructuras son conocidas por ser efectivas en los detectores de objetos de vanguardia modernos como Faster R-CNN y SSD para encontrar objetos a partir de contextos locales. Sin embargo, la calidad de los detectores de objetos puede mejorarse aún más al incorporar contextos globales cuando algunos objetos ambiguos deben ser identificados por objetos circundantes o el fondo. En este documento, presentamos un módulo de autoatención para detectores de objetos para incorporar contextos globales. Más específicamente, nuestro módulo de autoatención permite que el extractor de características calcule mapas de características con contextos globales mediante el mecanismo de autoatención. Nuestro módulo de autoatención calcula relaciones entre todos los elementos en los mapas de características, y luego mezcla los mapas de características considerando las relaciones calculadas. Por lo tanto, este módulo puede capturar relaciones a larga distancia entre objetos o fondos, lo cual es difícil para las estructuras totalmente convolucionales. Además, nuestro módulo propuesto no está limitado a ningún detector de objetos específico, y puede aplicarse a cualquier modelo basado en CNN para cualquier tarea de visión por computadora. En los resultados experimentales en la tarea de detección de objetos, nuestro método muestra ganancias notables en precisión promedio (AP) en comparación con modelos populares que tienen estructuras totalmente convolucionales. En particular, en comparación con Faster R-CNN con la columna vertebral ResNet-50, nuestro módulo aplicado a la misma columna vertebral logró +4.0 AP de ganancia sin adornos. En las tareas de segmentación semántica de imágenes y segmentación panóptica, nuestro módulo mejoró el rendimiento en todas las métricas utilizadas para cada tarea.

Otros recursos que podrían interesarte

Temas Virtualpro