logo móvil
Contáctanos

Red de Agregación de Información Contextual y Semántica Multinivel para la Detección de Objetos Pequeños en Imágenes Aéreas de UAV

Autores: Liu, Zhe; He, Guiqing; Hu, Yang

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Red de Agregación de Información Contextual y Semántica Multinivel para la Detección de Objetos Pequeños en Imágenes Aéreas de UAV


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Detección de objetos
Objetos pequeños
Imágenes aéreas
Representación de características
Confusión de fondo
MCSA-Net

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En los últimos años, los métodos de detección para la detección de objetos genéricos han logrado un progreso significativo. Sin embargo, debido al gran número de objetos pequeños en imágenes aéreas, los detectores convencionales tienen dificultades para lograr un rendimiento de detección satisfactorio. Los desafíos de la detección de objetos pequeños en imágenes aéreas son principalmente dos: (1) Representación de características insuficiente: La información visual limitada para objetos pequeños dificulta que los modelos aprendan representaciones de características discriminativas. (2) Confusión de fondo: La abundante información de fondo introduce más ruido e interferencia, lo que provoca que las características de los objetos pequeños se confundan fácilmente con el fondo. Para abordar estos problemas, proponemos una Red de Agregación de Información Contextual y Semántica a Múltiples Niveles (MCSA-Net). MCSA-Net incluye tres componentes clave: un Módulo de Selección de Características Consciente del Espacio (SAFM), una Red de Pirámide de Características Conjuntas a Múltiples Niveles (MJFPN) y una Cabeza Mejorada por Atención (AEHead). El SAFM emplea una secuencia de convoluciones dilatadas para extraer características de contexto local a múltiples escalas y combina un mecanismo de selección espacial para fusionar adaptativamente estas características, obteniendo así el contexto local crítico requerido para los objetos, lo que enriquece la representación de características de los objetos pequeños. El MJFPN introduce conexiones a múltiples niveles y fusión ponderada para aprovechar al máximo las características de detalle espacial de los objetos pequeños en la fusión de características y mejora aún más las características fusionadas a través de una red de agregación de características. Finalmente, la AEHead se construye incorporando un mecanismo de atención dispersa en la cabeza de detección. El mecanismo de atención dispersa modela de manera eficiente las dependencias a largo alcance al calcular la atención entre las regiones más relevantes de la imagen mientras suprime la interferencia del fondo, mejorando así la capacidad del modelo para percibir objetivos y mejorando efectivamente el rendimiento de detección. Experimentos extensivos en cuatro conjuntos de datos, VisDrone, UAVDT, MS COCO y DOTA, demuestran que la MCSA-Net propuesta logra un excelente rendimiento de detección, particularmente en la detección de objetos pequeños, superando varios métodos de vanguardia.

Otros recursos que podrían interesarte

Temas Virtualpro