CASA-RCNN: Un detector de dos etapas mejorado por contexto y adaptativo a la escala para escenas aéreas densas de UAV

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

CASA-RCNN: Un detector de dos etapas mejorado por contexto y adaptativo a la escala para escenas aéreas densas de UAV

Autores: Gu, Han; Wu, Jiayuan; Huang, Han

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

CASA-RCNN: Un detector de dos etapas mejorado por contexto y adaptativo a la escala para escenas aéreas densas de UAV

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Uav

Imágenes

Detección de objetos

Objetos pequeños

Modelado de contexto

Localización

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Las imágenes de vehículos aéreos no tripulados (UAV) presentan desafíos persistentes para la detección de objetos, incluyendo objetos pequeños densos, variaciones a gran escala, fondos desordenados y requisitos de localización estrictos, donde los detectores convencionales de dos etapas a menudo no logran una representación detallada de objetos pequeños, un modelado eficiente del contexto global y una consistencia entre clasificación y localización. Nos dirigimos específicamente a imágenes capturadas por UAV a baja altitud con puntos de vista altamente flexibles (cercanos al nadir y oblicuos) y un desenfoque de movimiento inducido por la plataforma frecuente, lo que hace que la localización de objetos pequeños densos sea sustancialmente más desafiante que en imágenes de teledetección convencionales. Para abordar estos problemas, proponemos CASA-RCNN, un marco de detección de dos etapas adaptativo al contexto y consciente de la escala, diseñado para escenarios de UAV. CASA-RCNN introduce un módulo de mejora de nivel superficial, ConvSwinMerge, que refuerza las señales sensibles a la posición y suprime la interferencia de fondo al combinar atención de coordenadas con excitación de canal, mejorando así las características discriminativas de alta resolución para objetos pequeños. Para características semánticas más profundas, incorporamos un módulo de modelado de secuencia adaptativa basado en MambaBlock para capturar dependencias a largo alcance y apoyar el razonamiento contextual en escenas abarrotadas u ocultas con una sobrecarga computacional práctica en una GPU de escritorio. Además, adoptamos Varifocal Loss para una clasificación consciente de la calidad para alinear mejor las puntuaciones de confianza con la calidad de localización, y diseñamos un ScaleAdaptiveLoss para reponder dinámicamente los objetivos de regresión a través de las escalas de los objetos, compensando la reducción de la contribución del gradiente de los objetivos pequeños durante el entrenamiento. Los experimentos en el benchmark de validación VisDrone2021 muestran que CASA-RCNN logra un 22.9% de mAP, mejorando Faster R-CNN en 9.0 puntos; también alcanza un 36.6% de mAP50 y un 25.7% de mAP75. Notablemente, el rendimiento en objetos pequeños mejora a un 12.5% de mAPs (desde un 6.9%), y los estudios de ablación confirman la efectividad y complementariedad de los componentes propuestos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro