FUR-DETR: Un modelo de detección ligero para la recuperación de UAV de ala fija
Autores: Yao, Yu; Wu, Jun; Hao, Yisheng; Huang, Zhen; Yin, Zixuan; Xu, Jiajing; Chen, Honglin; Pi, Jiahua
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
FUR-DETR: Un modelo de detección ligero para la recuperación de UAV de ala fija
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Tecnología de inspección visual
UAVs
Algoritmo RT-DETR
Eficiencia computacional
Precisión en la detección
Restricciones de comunicación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Debido a que los sistemas de recuperación tradicionales carecen de percepción visual, es difícil monitorear el estado en tiempo real de los UAV en entornos con limitaciones de comunicación o sin GPS. Esto conduce a una capacidad insuficiente en la toma de decisiones y el ajuste de parámetros, aumentando la incertidumbre y el riesgo de recuperación. La tecnología de inspección visual puede compensar las limitaciones del GPS y la comunicación, mejorando la autonomía y adaptabilidad del sistema. Sin embargo, el algoritmo RT-DETR existente está limitado por la extracción de características de un solo camino, un mecanismo de fusión simplificado y la pérdida de información de alta frecuencia, lo que dificulta equilibrar la precisión de detección y la eficiencia computacional. Por lo tanto, este artículo propone un modelo de detección visual ligero basado en la arquitectura de transformadores para optimizar aún más la eficiencia computacional. En primer lugar, con el objetivo de abordar el cuello de botella en el rendimiento de los modelos existentes, se propone el Backbone Paralelo, que captura características locales e información semántica global al compartir el módulo de extracción de características inicial y la estructura de doble rama, respectivamente, y utiliza el mecanismo de fusión progresiva para realizar la integración adaptativa de características multiescala, de modo que se equilibre la precisión y ligereza de la detección de objetivos. En segundo lugar, se diseña una red de pirámide de características multiescala adaptativa (AMFPN), que integra de manera efectiva diferentes escalas de información a través de la fusión de características a múltiples niveles y un mecanismo de transmisión de información, aliviando el problema de pérdida de información en la detección de pequeños objetivos y mejorando la precisión de detección en fondos complejos. Finalmente, se propone un mecanismo de fusión de características inversas optimizado en el dominio de frecuencia de wavelet (WT-FORM). Al utilizar la transformada de wavelet para descomponer las características superficiales en bandas de múltiples frecuencias y combinar el cálculo ponderado y la estrategia de compensación de características, se reduce la complejidad computacional y se mejora aún más la capacidad de representación del contexto global. Los resultados experimentales muestran que el modelo mejorado reduce el tamaño de los parámetros y la carga computacional en un 43.2% y un 58%, manteniendo una precisión de detección comparable a la del RT-DETR original en tres conjuntos de datos. Incluso en entornos complejos con poca luz, oclusión o pequeños objetivos, puede proporcionar resultados de detección más precisos.
Descripción
Debido a que los sistemas de recuperación tradicionales carecen de percepción visual, es difícil monitorear el estado en tiempo real de los UAV en entornos con limitaciones de comunicación o sin GPS. Esto conduce a una capacidad insuficiente en la toma de decisiones y el ajuste de parámetros, aumentando la incertidumbre y el riesgo de recuperación. La tecnología de inspección visual puede compensar las limitaciones del GPS y la comunicación, mejorando la autonomía y adaptabilidad del sistema. Sin embargo, el algoritmo RT-DETR existente está limitado por la extracción de características de un solo camino, un mecanismo de fusión simplificado y la pérdida de información de alta frecuencia, lo que dificulta equilibrar la precisión de detección y la eficiencia computacional. Por lo tanto, este artículo propone un modelo de detección visual ligero basado en la arquitectura de transformadores para optimizar aún más la eficiencia computacional. En primer lugar, con el objetivo de abordar el cuello de botella en el rendimiento de los modelos existentes, se propone el Backbone Paralelo, que captura características locales e información semántica global al compartir el módulo de extracción de características inicial y la estructura de doble rama, respectivamente, y utiliza el mecanismo de fusión progresiva para realizar la integración adaptativa de características multiescala, de modo que se equilibre la precisión y ligereza de la detección de objetivos. En segundo lugar, se diseña una red de pirámide de características multiescala adaptativa (AMFPN), que integra de manera efectiva diferentes escalas de información a través de la fusión de características a múltiples niveles y un mecanismo de transmisión de información, aliviando el problema de pérdida de información en la detección de pequeños objetivos y mejorando la precisión de detección en fondos complejos. Finalmente, se propone un mecanismo de fusión de características inversas optimizado en el dominio de frecuencia de wavelet (WT-FORM). Al utilizar la transformada de wavelet para descomponer las características superficiales en bandas de múltiples frecuencias y combinar el cálculo ponderado y la estrategia de compensación de características, se reduce la complejidad computacional y se mejora aún más la capacidad de representación del contexto global. Los resultados experimentales muestran que el modelo mejorado reduce el tamaño de los parámetros y la carga computacional en un 43.2% y un 58%, manteniendo una precisión de detección comparable a la del RT-DETR original en tres conjuntos de datos. Incluso en entornos complejos con poca luz, oclusión o pequeños objetivos, puede proporcionar resultados de detección más precisos.