logo móvil
Contáctanos

CASA-RCNN: Un detector de dos etapas mejorado por contexto y adaptativo a la escala para escenas aéreas densas de UAV

Autores: Gu, Han; Wu, Jiayuan; Huang, Han

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

CASA-RCNN: Un detector de dos etapas mejorado por contexto y adaptativo a la escala para escenas aéreas densas de UAV


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Uav
Imágenes
Detección de objetos
Objetos pequeños
Modelado de contexto
Localización

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Las imágenes de vehículos aéreos no tripulados (UAV) presentan desafíos persistentes para la detección de objetos, incluyendo objetos pequeños densos, variaciones a gran escala, fondos desordenados y requisitos de localización estrictos, donde los detectores convencionales de dos etapas a menudo no logran una representación detallada de objetos pequeños, un modelado eficiente del contexto global y una consistencia entre clasificación y localización. Nos dirigimos específicamente a imágenes capturadas por UAV a baja altitud con puntos de vista altamente flexibles (cercanos al nadir y oblicuos) y un desenfoque de movimiento inducido por la plataforma frecuente, lo que hace que la localización de objetos pequeños densos sea sustancialmente más desafiante que en imágenes de teledetección convencionales. Para abordar estos problemas, proponemos CASA-RCNN, un marco de detección de dos etapas adaptativo al contexto y consciente de la escala, diseñado para escenarios de UAV. CASA-RCNN introduce un módulo de mejora de nivel superficial, ConvSwinMerge, que refuerza las señales sensibles a la posición y suprime la interferencia de fondo al combinar atención de coordenadas con excitación de canal, mejorando así las características discriminativas de alta resolución para objetos pequeños. Para características semánticas más profundas, incorporamos un módulo de modelado de secuencia adaptativa basado en MambaBlock para capturar dependencias a largo alcance y apoyar el razonamiento contextual en escenas abarrotadas u ocultas con una sobrecarga computacional práctica en una GPU de escritorio. Además, adoptamos Varifocal Loss para una clasificación consciente de la calidad para alinear mejor las puntuaciones de confianza con la calidad de localización, y diseñamos un ScaleAdaptiveLoss para reponder dinámicamente los objetivos de regresión a través de las escalas de los objetos, compensando la reducción de la contribución del gradiente de los objetivos pequeños durante el entrenamiento. Los experimentos en el benchmark de validación VisDrone2021 muestran que CASA-RCNN logra un 22.9% de mAP, mejorando Faster R-CNN en 9.0 puntos; también alcanza un 36.6% de mAP50 y un 25.7% de mAP75. Notablemente, el rendimiento en objetos pequeños mejora a un 12.5% de mAPs (desde un 6.9%), y los estudios de ablación confirman la efectividad y complementariedad de los componentes propuestos.

Otros recursos que podrían interesarte

Temas Virtualpro