Red de Agregación de Información Contextual y Semántica Multinivel para la Detección de Objetos Pequeños en Imágenes Aéreas de UAV
Autores: Liu, Zhe; He, Guiqing; Hu, Yang
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Red de Agregación de Información Contextual y Semántica Multinivel para la Detección de Objetos Pequeños en Imágenes Aéreas de UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Detección de objetos
Objetos pequeños
Imágenes aéreas
Representación de características
Confusión de fondo
MCSA-Net
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En los últimos años, los métodos de detección para la detección de objetos genéricos han logrado un progreso significativo. Sin embargo, debido al gran número de objetos pequeños en imágenes aéreas, los detectores convencionales tienen dificultades para lograr un rendimiento de detección satisfactorio. Los desafíos de la detección de objetos pequeños en imágenes aéreas son principalmente dos: (1) Representación de características insuficiente: La información visual limitada para objetos pequeños dificulta que los modelos aprendan representaciones de características discriminativas. (2) Confusión de fondo: La abundante información de fondo introduce más ruido e interferencia, lo que provoca que las características de los objetos pequeños se confundan fácilmente con el fondo. Para abordar estos problemas, proponemos una Red de Agregación de Información Contextual y Semántica a Múltiples Niveles (MCSA-Net). MCSA-Net incluye tres componentes clave: un Módulo de Selección de Características Consciente del Espacio (SAFM), una Red de Pirámide de Características Conjuntas a Múltiples Niveles (MJFPN) y una Cabeza Mejorada por Atención (AEHead). El SAFM emplea una secuencia de convoluciones dilatadas para extraer características de contexto local a múltiples escalas y combina un mecanismo de selección espacial para fusionar adaptativamente estas características, obteniendo así el contexto local crítico requerido para los objetos, lo que enriquece la representación de características de los objetos pequeños. El MJFPN introduce conexiones a múltiples niveles y fusión ponderada para aprovechar al máximo las características de detalle espacial de los objetos pequeños en la fusión de características y mejora aún más las características fusionadas a través de una red de agregación de características. Finalmente, la AEHead se construye incorporando un mecanismo de atención dispersa en la cabeza de detección. El mecanismo de atención dispersa modela de manera eficiente las dependencias a largo alcance al calcular la atención entre las regiones más relevantes de la imagen mientras suprime la interferencia del fondo, mejorando así la capacidad del modelo para percibir objetivos y mejorando efectivamente el rendimiento de detección. Experimentos extensivos en cuatro conjuntos de datos, VisDrone, UAVDT, MS COCO y DOTA, demuestran que la MCSA-Net propuesta logra un excelente rendimiento de detección, particularmente en la detección de objetos pequeños, superando varios métodos de vanguardia.
Descripción
En los últimos años, los métodos de detección para la detección de objetos genéricos han logrado un progreso significativo. Sin embargo, debido al gran número de objetos pequeños en imágenes aéreas, los detectores convencionales tienen dificultades para lograr un rendimiento de detección satisfactorio. Los desafíos de la detección de objetos pequeños en imágenes aéreas son principalmente dos: (1) Representación de características insuficiente: La información visual limitada para objetos pequeños dificulta que los modelos aprendan representaciones de características discriminativas. (2) Confusión de fondo: La abundante información de fondo introduce más ruido e interferencia, lo que provoca que las características de los objetos pequeños se confundan fácilmente con el fondo. Para abordar estos problemas, proponemos una Red de Agregación de Información Contextual y Semántica a Múltiples Niveles (MCSA-Net). MCSA-Net incluye tres componentes clave: un Módulo de Selección de Características Consciente del Espacio (SAFM), una Red de Pirámide de Características Conjuntas a Múltiples Niveles (MJFPN) y una Cabeza Mejorada por Atención (AEHead). El SAFM emplea una secuencia de convoluciones dilatadas para extraer características de contexto local a múltiples escalas y combina un mecanismo de selección espacial para fusionar adaptativamente estas características, obteniendo así el contexto local crítico requerido para los objetos, lo que enriquece la representación de características de los objetos pequeños. El MJFPN introduce conexiones a múltiples niveles y fusión ponderada para aprovechar al máximo las características de detalle espacial de los objetos pequeños en la fusión de características y mejora aún más las características fusionadas a través de una red de agregación de características. Finalmente, la AEHead se construye incorporando un mecanismo de atención dispersa en la cabeza de detección. El mecanismo de atención dispersa modela de manera eficiente las dependencias a largo alcance al calcular la atención entre las regiones más relevantes de la imagen mientras suprime la interferencia del fondo, mejorando así la capacidad del modelo para percibir objetivos y mejorando efectivamente el rendimiento de detección. Experimentos extensivos en cuatro conjuntos de datos, VisDrone, UAVDT, MS COCO y DOTA, demuestran que la MCSA-Net propuesta logra un excelente rendimiento de detección, particularmente en la detección de objetos pequeños, superando varios métodos de vanguardia.