Un nuevo transformador multi-escala para la detección de objetos en escenas aéreas
Autores: Lu, Guanlin; He, Xiaohui; Wang, Qiang; Shao, Faming; Wang, Hongwei; Wang, Jinkang
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un nuevo transformador multi-escala para la detección de objetos en escenas aéreas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje profundo
Detección de objetos
Escenas aéreas
DFCformer
DMViT
Características multiescala
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El aprendizaje profundo ha promovido la investigación de la detección de objetos en escenas aéreas. Sin embargo, la mayoría de las redes existentes están limitadas por la variación a gran escala de los objetos y la confusión de las características de categoría. Para superar estas limitaciones, este artículo propone un nuevo marco de detección de objetos aéreos llamado DFCformer. DFCformer se compone principalmente de tres partes: la red base DMViT, que introduce la incrustación de parches de deformación y la autoatención adaptativa a múltiples escalas para capturar suficientes características de los objetos; FRGC guía la interacción de características capa por capa para romper las barreras entre las capas de características y mejorar la discriminación de información y la capacidad de procesamiento de características críticas a múltiples escalas; CAIM adopta un mecanismo de atención para fusionar características a múltiples escalas y realizar un razonamiento jerárquico sobre la relación entre diferentes niveles y aprovechar al máximo la información complementaria en las características a múltiples escalas. Se han realizado extensos experimentos en el conjunto de datos FAIR1M, y DFCformer muestra sus ventajas al lograr las puntuaciones más altas con una mayor adaptabilidad a las escenas.
Descripción
El aprendizaje profundo ha promovido la investigación de la detección de objetos en escenas aéreas. Sin embargo, la mayoría de las redes existentes están limitadas por la variación a gran escala de los objetos y la confusión de las características de categoría. Para superar estas limitaciones, este artículo propone un nuevo marco de detección de objetos aéreos llamado DFCformer. DFCformer se compone principalmente de tres partes: la red base DMViT, que introduce la incrustación de parches de deformación y la autoatención adaptativa a múltiples escalas para capturar suficientes características de los objetos; FRGC guía la interacción de características capa por capa para romper las barreras entre las capas de características y mejorar la discriminación de información y la capacidad de procesamiento de características críticas a múltiples escalas; CAIM adopta un mecanismo de atención para fusionar características a múltiples escalas y realizar un razonamiento jerárquico sobre la relación entre diferentes niveles y aprovechar al máximo la información complementaria en las características a múltiples escalas. Se han realizado extensos experimentos en el conjunto de datos FAIR1M, y DFCformer muestra sus ventajas al lograr las puntuaciones más altas con una mayor adaptabilidad a las escenas.