Mejorando la calidad de detección de objetos mediante la incorporación de contextos globales a través de la autoatención
Autores: Lee, Donghyeon; Kim, Joonyoung; Jung, Kyomin
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Mejorando la calidad de detección de objetos mediante la incorporación de contextos globales a través de la autoatención
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Mapas de características
Detectores de objetos
Contextos globales
Módulo de autoatención
Relaciones
Estructuras convolucionales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Las estructuras totalmente convolucionales proporcionan mapas de características que adquieren contextos locales de una imagen al simplemente apilar numerosas capas convolucionales. Estas estructuras son conocidas por ser efectivas en los detectores de objetos de vanguardia modernos como Faster R-CNN y SSD para encontrar objetos a partir de contextos locales. Sin embargo, la calidad de los detectores de objetos puede mejorarse aún más al incorporar contextos globales cuando algunos objetos ambiguos deben ser identificados por objetos circundantes o el fondo. En este documento, presentamos un módulo de autoatención para detectores de objetos para incorporar contextos globales. Más específicamente, nuestro módulo de autoatención permite que el extractor de características calcule mapas de características con contextos globales mediante el mecanismo de autoatención. Nuestro módulo de autoatención calcula relaciones entre todos los elementos en los mapas de características, y luego mezcla los mapas de características considerando las relaciones calculadas. Por lo tanto, este módulo puede capturar relaciones a larga distancia entre objetos o fondos, lo cual es difícil para las estructuras totalmente convolucionales. Además, nuestro módulo propuesto no está limitado a ningún detector de objetos específico, y puede aplicarse a cualquier modelo basado en CNN para cualquier tarea de visión por computadora. En los resultados experimentales en la tarea de detección de objetos, nuestro método muestra ganancias notables en precisión promedio (AP) en comparación con modelos populares que tienen estructuras totalmente convolucionales. En particular, en comparación con Faster R-CNN con la columna vertebral ResNet-50, nuestro módulo aplicado a la misma columna vertebral logró +4.0 AP de ganancia sin adornos. En las tareas de segmentación semántica de imágenes y segmentación panóptica, nuestro módulo mejoró el rendimiento en todas las métricas utilizadas para cada tarea.
Descripción
Las estructuras totalmente convolucionales proporcionan mapas de características que adquieren contextos locales de una imagen al simplemente apilar numerosas capas convolucionales. Estas estructuras son conocidas por ser efectivas en los detectores de objetos de vanguardia modernos como Faster R-CNN y SSD para encontrar objetos a partir de contextos locales. Sin embargo, la calidad de los detectores de objetos puede mejorarse aún más al incorporar contextos globales cuando algunos objetos ambiguos deben ser identificados por objetos circundantes o el fondo. En este documento, presentamos un módulo de autoatención para detectores de objetos para incorporar contextos globales. Más específicamente, nuestro módulo de autoatención permite que el extractor de características calcule mapas de características con contextos globales mediante el mecanismo de autoatención. Nuestro módulo de autoatención calcula relaciones entre todos los elementos en los mapas de características, y luego mezcla los mapas de características considerando las relaciones calculadas. Por lo tanto, este módulo puede capturar relaciones a larga distancia entre objetos o fondos, lo cual es difícil para las estructuras totalmente convolucionales. Además, nuestro módulo propuesto no está limitado a ningún detector de objetos específico, y puede aplicarse a cualquier modelo basado en CNN para cualquier tarea de visión por computadora. En los resultados experimentales en la tarea de detección de objetos, nuestro método muestra ganancias notables en precisión promedio (AP) en comparación con modelos populares que tienen estructuras totalmente convolucionales. En particular, en comparación con Faster R-CNN con la columna vertebral ResNet-50, nuestro módulo aplicado a la misma columna vertebral logró +4.0 AP de ganancia sin adornos. En las tareas de segmentación semántica de imágenes y segmentación panóptica, nuestro módulo mejoró el rendimiento en todas las métricas utilizadas para cada tarea.