CASA-RCNN: Un detector de dos etapas mejorado por contexto y adaptativo a la escala para escenas aéreas densas de UAV
Autores: Gu, Han; Wu, Jiayuan; Huang, Han
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
CASA-RCNN: Un detector de dos etapas mejorado por contexto y adaptativo a la escala para escenas aéreas densas de UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Uav
Imágenes
Detección de objetos
Objetos pequeños
Modelado de contexto
Localización
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las imágenes de vehículos aéreos no tripulados (UAV) presentan desafíos persistentes para la detección de objetos, incluyendo objetos pequeños densos, variaciones a gran escala, fondos desordenados y requisitos de localización estrictos, donde los detectores convencionales de dos etapas a menudo no logran una representación detallada de objetos pequeños, un modelado eficiente del contexto global y una consistencia entre clasificación y localización. Nos dirigimos específicamente a imágenes capturadas por UAV a baja altitud con puntos de vista altamente flexibles (cercanos al nadir y oblicuos) y un desenfoque de movimiento inducido por la plataforma frecuente, lo que hace que la localización de objetos pequeños densos sea sustancialmente más desafiante que en imágenes de teledetección convencionales. Para abordar estos problemas, proponemos CASA-RCNN, un marco de detección de dos etapas adaptativo al contexto y consciente de la escala, diseñado para escenarios de UAV. CASA-RCNN introduce un módulo de mejora de nivel superficial, ConvSwinMerge, que refuerza las señales sensibles a la posición y suprime la interferencia de fondo al combinar atención de coordenadas con excitación de canal, mejorando así las características discriminativas de alta resolución para objetos pequeños. Para características semánticas más profundas, incorporamos un módulo de modelado de secuencia adaptativa basado en MambaBlock para capturar dependencias a largo alcance y apoyar el razonamiento contextual en escenas abarrotadas u ocultas con una sobrecarga computacional práctica en una GPU de escritorio. Además, adoptamos Varifocal Loss para una clasificación consciente de la calidad para alinear mejor las puntuaciones de confianza con la calidad de localización, y diseñamos un ScaleAdaptiveLoss para reponder dinámicamente los objetivos de regresión a través de las escalas de los objetos, compensando la reducción de la contribución del gradiente de los objetivos pequeños durante el entrenamiento. Los experimentos en el benchmark de validación VisDrone2021 muestran que CASA-RCNN logra un 22.9% de mAP, mejorando Faster R-CNN en 9.0 puntos; también alcanza un 36.6% de mAP50 y un 25.7% de mAP75. Notablemente, el rendimiento en objetos pequeños mejora a un 12.5% de mAPs (desde un 6.9%), y los estudios de ablación confirman la efectividad y complementariedad de los componentes propuestos.
Descripción
Las imágenes de vehículos aéreos no tripulados (UAV) presentan desafíos persistentes para la detección de objetos, incluyendo objetos pequeños densos, variaciones a gran escala, fondos desordenados y requisitos de localización estrictos, donde los detectores convencionales de dos etapas a menudo no logran una representación detallada de objetos pequeños, un modelado eficiente del contexto global y una consistencia entre clasificación y localización. Nos dirigimos específicamente a imágenes capturadas por UAV a baja altitud con puntos de vista altamente flexibles (cercanos al nadir y oblicuos) y un desenfoque de movimiento inducido por la plataforma frecuente, lo que hace que la localización de objetos pequeños densos sea sustancialmente más desafiante que en imágenes de teledetección convencionales. Para abordar estos problemas, proponemos CASA-RCNN, un marco de detección de dos etapas adaptativo al contexto y consciente de la escala, diseñado para escenarios de UAV. CASA-RCNN introduce un módulo de mejora de nivel superficial, ConvSwinMerge, que refuerza las señales sensibles a la posición y suprime la interferencia de fondo al combinar atención de coordenadas con excitación de canal, mejorando así las características discriminativas de alta resolución para objetos pequeños. Para características semánticas más profundas, incorporamos un módulo de modelado de secuencia adaptativa basado en MambaBlock para capturar dependencias a largo alcance y apoyar el razonamiento contextual en escenas abarrotadas u ocultas con una sobrecarga computacional práctica en una GPU de escritorio. Además, adoptamos Varifocal Loss para una clasificación consciente de la calidad para alinear mejor las puntuaciones de confianza con la calidad de localización, y diseñamos un ScaleAdaptiveLoss para reponder dinámicamente los objetivos de regresión a través de las escalas de los objetos, compensando la reducción de la contribución del gradiente de los objetivos pequeños durante el entrenamiento. Los experimentos en el benchmark de validación VisDrone2021 muestran que CASA-RCNN logra un 22.9% de mAP, mejorando Faster R-CNN en 9.0 puntos; también alcanza un 36.6% de mAP50 y un 25.7% de mAP75. Notablemente, el rendimiento en objetos pequeños mejora a un 12.5% de mAPs (desde un 6.9%), y los estudios de ablación confirman la efectividad y complementariedad de los componentes propuestos.