logo móvil
Contáctanos

RSMamDet: Detección Eficiente de Vehículos mediante Sensores Remotos de UAV a través de Modelos de Espacio de Estado Lineales y Fusión Adaptativa de Características de Múltiples Niveles

Autores: Wu, Man; Liu, Xiaozhang; Li, Xiulai; Gan, Wenbiao

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

RSMamDet: Detección Eficiente de Vehículos mediante Sensores Remotos de UAV a través de Modelos de Espacio de Estado Lineales y Fusión Adaptativa de Características de Múltiples Niveles


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Detección
Marco
Modelado de contexto
Fusión de características
Inferencia en tiempo real
Costo computacional

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La detección precisa y eficiente de vehículos a partir de imágenes de vehículos aéreos no tripulados (UAV) es esencial para el transporte inteligente, la monitorización urbana y la seguridad pública, sin embargo, esta tarea sigue siendo un desafío debido a la alta densidad de objetivos, la variación extrema de escala, los fondos complejos y las estrictas limitaciones computacionales a bordo. Los detectores basados en DETR existentes modelan el contexto global a través de la autoatención, pero incurren en una complejidad cuadrática O(N2) que es prohibitiva para imágenes UAV de alta resolución, mientras que los métodos basados en CNN carecen de la conciencia contextual de largo alcance necesaria para escenarios densos de pequeños objetos. Proponemos RSMamDet, un marco de detección eficiente de extremo a extremo construido sobre RT-DETR que reemplaza la autoatención cuadrática con un escaneo de Modelo de Estado Espacial lineal O(N). El marco integra un backbone MobileMamba con un módulo de Escaneo de Características Selectivas para un modelado eficiente del contexto global, un módulo de Integración Selectiva Consciente de Dimensiones para la fusión adaptativa de características a diferentes escalas, un codificador de Red de Incepción de Núcleo Polinómico para el enriquecimiento de características de múltiples campos receptivos, y un módulo de Fusión de Características Multi-Nivel Adaptativa para un aumento dinámico consciente del contenido, complementado por una pérdida compuesta de Mínima Incertidumbre para una selección estable de consultas en escenas aéreas desordenadas. Los experimentos en DroneVehicle y VisDrone2019 demuestran que RSMamDet logra un mAP50 del 72.6% y 40.2%, superando a los métodos de última generación en un 4.1% y 2.2%, respectivamente, mientras mantiene una inferencia en tiempo real a 186.2 FPS con solo 19.8M de parámetros y 42.3 GFLOPs, lo que representa una reducción de 6.14x en el costo computacional y una reducción de 3.86x en los parámetros del modelo en comparación con la línea base más fuerte.

Otros recursos que podrían interesarte

Temas Virtualpro