DCAM-DETR: Transformador de Detección Mamba de Doble Atención Cruzada para la Detección Anti-UAV RGB-Infrarrojo
Autores: Qin, Zemin; Li, Yuheng
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
DCAM-DETR: Transformador de Detección Mamba de Doble Atención Cruzada para la Detección Anti-UAV RGB-Infrarrojo
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Proliferación
Vehículos aéreos no tripulados
Amenazas a la seguridad
Marco de detección multimodal
Modelos de espacio de estados
Degradación del rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La proliferación de vehículos aéreos no tripulados (UAV) plantea amenazas de seguridad crecientes en infraestructuras críticas, lo que requiere sistemas de detección robustos en tiempo real. Los métodos existentes basados en visión dependen predominantemente de datos de una sola modalidad y exhiben una degradación significativa del rendimiento en escenarios desafiantes. Para abordar estas limitaciones, proponemos DCAM-DETR, un nuevo marco de detección multimodal que fusiona modalidades RGB e infrarrojo térmico a través de una arquitectura RT-DETR mejorada integrada con modelos de espacio de estados. Nuestro enfoque introduce cuatro innovaciones: (1) un backbone MobileMamba que aprovecha modelos de espacio de estados selectivos para un modelado eficiente de dependencias a largo alcance con complejidad lineal O(n); (2) módulos de Atención Cruzada Dimensional (CDA) y Atención Cruzada de Ruta (CPA) que capturan correlaciones intermodales a través de dimensiones espaciales y de canal; (3) un Módulo de Fusión de Características Adaptativas (AFFM) que calibra dinámicamente las contribuciones de características multimodales; y (4) un Módulo de Desacoplamiento de Doble Atención (DADM) que mejora la discriminación de la cabeza de detección para objetivos pequeños. Los experimentos en Anti-UAV300 demuestran un rendimiento de vanguardia con un 94.7% mAP@0.5 y un 78.3% mAP@0.5:0.95 a 42 FPS. Evaluaciones extendidas en los conjuntos de datos FLIR-ADAS y KAIST validan la capacidad de generalización en diversos escenarios.
Descripción
La proliferación de vehículos aéreos no tripulados (UAV) plantea amenazas de seguridad crecientes en infraestructuras críticas, lo que requiere sistemas de detección robustos en tiempo real. Los métodos existentes basados en visión dependen predominantemente de datos de una sola modalidad y exhiben una degradación significativa del rendimiento en escenarios desafiantes. Para abordar estas limitaciones, proponemos DCAM-DETR, un nuevo marco de detección multimodal que fusiona modalidades RGB e infrarrojo térmico a través de una arquitectura RT-DETR mejorada integrada con modelos de espacio de estados. Nuestro enfoque introduce cuatro innovaciones: (1) un backbone MobileMamba que aprovecha modelos de espacio de estados selectivos para un modelado eficiente de dependencias a largo alcance con complejidad lineal O(n); (2) módulos de Atención Cruzada Dimensional (CDA) y Atención Cruzada de Ruta (CPA) que capturan correlaciones intermodales a través de dimensiones espaciales y de canal; (3) un Módulo de Fusión de Características Adaptativas (AFFM) que calibra dinámicamente las contribuciones de características multimodales; y (4) un Módulo de Desacoplamiento de Doble Atención (DADM) que mejora la discriminación de la cabeza de detección para objetivos pequeños. Los experimentos en Anti-UAV300 demuestran un rendimiento de vanguardia con un 94.7% mAP@0.5 y un 78.3% mAP@0.5:0.95 a 42 FPS. Evaluaciones extendidas en los conjuntos de datos FLIR-ADAS y KAIST validan la capacidad de generalización en diversos escenarios.