Aprendizaje de la función de equilibrio para la detección de objetos
Autores: Zhang, Zhiqiang; Qiu, Xin; Li, Yongzhou
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendizaje de la función de equilibrio para la detección de objetos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Red
Red de pirámide de características
Detección de objetos
Multi-escala
Información semántica
Módulo de atención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
En el campo del estudio de la variación de escala, la Red de Pirámide de Características (FPN) reemplaza la pirámide de imágenes y se ha convertido en uno de los métodos de detección de objetos más populares para detectar objetos a múltiples escalas. Los métodos de vanguardia tienen FPN insertado en un pipeline entre la columna vertebral y la cabeza de detección para permitir características superficiales con más información semántica. Sin embargo, FPN es insuficiente para la detección de objetos en diversas escalas, especialmente para la detección de objetos a pequeña escala. Una de las razones es que las características se extraen en diferentes profundidades de red, lo que introduce brechas entre las características. Es decir, a medida que la red se hace más profunda, las características de alto nivel tienen más semántica pero menos descripción de contenido. Este documento propone un nuevo método que incluye un módulo de extracción de campos receptivos a múltiples escalas, un módulo constructor de características y un módulo de atención para mejorar la eficiencia de detección de FPN para objetos de diversas escalas y para cerrar la brecha en la descripción de contenido y semántica entre diferentes capas. Juntos, estos tres módulos hacen que el detector sea capaz de seleccionar la característica más adecuada para los objetos. Especialmente para el módulo de atención, este documento elige utilizar una estructura paralela para extraer simultáneamente la atención de canal y espacial de las mismas características. Cuando usamos la Selección de Muestras de Entrenamiento Adaptativo (ATSS) y FreeAnchor como base y ResNet50 como columna vertebral, los resultados experimentales en el conjunto de datos MS COCO muestran que nuestro algoritmo puede mejorar la precisión promedio (mAP) en un 3.7% y 2.4% en comparación con FPN, respectivamente.
Descripción
En el campo del estudio de la variación de escala, la Red de Pirámide de Características (FPN) reemplaza la pirámide de imágenes y se ha convertido en uno de los métodos de detección de objetos más populares para detectar objetos a múltiples escalas. Los métodos de vanguardia tienen FPN insertado en un pipeline entre la columna vertebral y la cabeza de detección para permitir características superficiales con más información semántica. Sin embargo, FPN es insuficiente para la detección de objetos en diversas escalas, especialmente para la detección de objetos a pequeña escala. Una de las razones es que las características se extraen en diferentes profundidades de red, lo que introduce brechas entre las características. Es decir, a medida que la red se hace más profunda, las características de alto nivel tienen más semántica pero menos descripción de contenido. Este documento propone un nuevo método que incluye un módulo de extracción de campos receptivos a múltiples escalas, un módulo constructor de características y un módulo de atención para mejorar la eficiencia de detección de FPN para objetos de diversas escalas y para cerrar la brecha en la descripción de contenido y semántica entre diferentes capas. Juntos, estos tres módulos hacen que el detector sea capaz de seleccionar la característica más adecuada para los objetos. Especialmente para el módulo de atención, este documento elige utilizar una estructura paralela para extraer simultáneamente la atención de canal y espacial de las mismas características. Cuando usamos la Selección de Muestras de Entrenamiento Adaptativo (ATSS) y FreeAnchor como base y ResNet50 como columna vertebral, los resultados experimentales en el conjunto de datos MS COCO muestran que nuestro algoritmo puede mejorar la precisión promedio (mAP) en un 3.7% y 2.4% en comparación con FPN, respectivamente.