RSMamDet: Detección Eficiente de Vehículos mediante Sensores Remotos de UAV a través de Modelos de Espacio de Estado Lineales y Fusión Adaptativa de Características de Múltiples Niveles
Autores: Wu, Man; Liu, Xiaozhang; Li, Xiulai; Gan, Wenbiao
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
RSMamDet: Detección Eficiente de Vehículos mediante Sensores Remotos de UAV a través de Modelos de Espacio de Estado Lineales y Fusión Adaptativa de Características de Múltiples Niveles
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Detección
Marco
Modelado de contexto
Fusión de características
Inferencia en tiempo real
Costo computacional
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección precisa y eficiente de vehículos a partir de imágenes de vehículos aéreos no tripulados (UAV) es esencial para el transporte inteligente, la monitorización urbana y la seguridad pública, sin embargo, esta tarea sigue siendo un desafío debido a la alta densidad de objetivos, la variación extrema de escala, los fondos complejos y las estrictas limitaciones computacionales a bordo. Los detectores basados en DETR existentes modelan el contexto global a través de la autoatención, pero incurren en una complejidad cuadrática O(N2) que es prohibitiva para imágenes UAV de alta resolución, mientras que los métodos basados en CNN carecen de la conciencia contextual de largo alcance necesaria para escenarios densos de pequeños objetos. Proponemos RSMamDet, un marco de detección eficiente de extremo a extremo construido sobre RT-DETR que reemplaza la autoatención cuadrática con un escaneo de Modelo de Estado Espacial lineal O(N). El marco integra un backbone MobileMamba con un módulo de Escaneo de Características Selectivas para un modelado eficiente del contexto global, un módulo de Integración Selectiva Consciente de Dimensiones para la fusión adaptativa de características a diferentes escalas, un codificador de Red de Incepción de Núcleo Polinómico para el enriquecimiento de características de múltiples campos receptivos, y un módulo de Fusión de Características Multi-Nivel Adaptativa para un aumento dinámico consciente del contenido, complementado por una pérdida compuesta de Mínima Incertidumbre para una selección estable de consultas en escenas aéreas desordenadas. Los experimentos en DroneVehicle y VisDrone2019 demuestran que RSMamDet logra un mAP50 del 72.6% y 40.2%, superando a los métodos de última generación en un 4.1% y 2.2%, respectivamente, mientras mantiene una inferencia en tiempo real a 186.2 FPS con solo 19.8M de parámetros y 42.3 GFLOPs, lo que representa una reducción de 6.14x en el costo computacional y una reducción de 3.86x en los parámetros del modelo en comparación con la línea base más fuerte.
Descripción
La detección precisa y eficiente de vehículos a partir de imágenes de vehículos aéreos no tripulados (UAV) es esencial para el transporte inteligente, la monitorización urbana y la seguridad pública, sin embargo, esta tarea sigue siendo un desafío debido a la alta densidad de objetivos, la variación extrema de escala, los fondos complejos y las estrictas limitaciones computacionales a bordo. Los detectores basados en DETR existentes modelan el contexto global a través de la autoatención, pero incurren en una complejidad cuadrática O(N2) que es prohibitiva para imágenes UAV de alta resolución, mientras que los métodos basados en CNN carecen de la conciencia contextual de largo alcance necesaria para escenarios densos de pequeños objetos. Proponemos RSMamDet, un marco de detección eficiente de extremo a extremo construido sobre RT-DETR que reemplaza la autoatención cuadrática con un escaneo de Modelo de Estado Espacial lineal O(N). El marco integra un backbone MobileMamba con un módulo de Escaneo de Características Selectivas para un modelado eficiente del contexto global, un módulo de Integración Selectiva Consciente de Dimensiones para la fusión adaptativa de características a diferentes escalas, un codificador de Red de Incepción de Núcleo Polinómico para el enriquecimiento de características de múltiples campos receptivos, y un módulo de Fusión de Características Multi-Nivel Adaptativa para un aumento dinámico consciente del contenido, complementado por una pérdida compuesta de Mínima Incertidumbre para una selección estable de consultas en escenas aéreas desordenadas. Los experimentos en DroneVehicle y VisDrone2019 demuestran que RSMamDet logra un mAP50 del 72.6% y 40.2%, superando a los métodos de última generación en un 4.1% y 2.2%, respectivamente, mientras mantiene una inferencia en tiempo real a 186.2 FPS con solo 19.8M de parámetros y 42.3 GFLOPs, lo que representa una reducción de 6.14x en el costo computacional y una reducción de 3.86x en los parámetros del modelo en comparación con la línea base más fuerte.