YOLO-DroneMS: Red de Detección de Objetos a Múltiples Escalas para Imágenes de Vehículos Aéreos No Tripulados (UAV)
Autores: Zhao, Xueqiang; Chen, Yangbo
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
YOLO-DroneMS: Red de Detección de Objetos a Múltiples Escalas para Imágenes de Vehículos Aéreos No Tripulados (UAV)
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículos aéreos no tripulados
Detección de objetos
YOLO-DroneMS
Mecanismo de atención
Multi-escala
Conjunto de datos VisDrone2019
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En los últimos años, la investigación sobre Vehículos Aéreos No Tripulados (VANT) se ha desarrollado rápidamente. En comparación con las imágenes de teledetección tradicionales, las imágenes de VANT exhiben fondos complejos, alta resolución y grandes diferencias en las escalas de los objetos. Por lo tanto, la detección de objetos en VANT es una tarea esencial pero desafiante. Este documento propone una red de detección de objetos a múltiples escalas, denominada YOLO-DroneMS (You Only Look Once for Drone Multi-Scale Object), para imágenes de VANT. Dirigiéndose a la conexión fundamental entre el backbone y el neck, se adopta el mecanismo de Atención de Núcleo Separado Grande (LSKA) con el Factor de Agrupamiento Piramidal Espacial (SPPF), donde se realiza un procesamiento ponderado de mapas de características a múltiples escalas para centrarse más en las características. Además, se introduce la Fusión de Secuencia de Escala Atencional DySample (ASF-DySample) para realizar la fusión de secuencia de escala atencional y el sobremuestreo dinámico para conservar recursos. Luego, se optimiza el cuello de botella de red parcial de etapa cruzada más rápido con dos convoluciones (denominado C2f) en el backbone utilizando el Bloque Móvil Residual Invertido y el Bloque de Reparametrización Dilatada (iRMB-DRB), que equilibra las ventajas del modelado global dinámico y la fusión de información local estática. Esta optimización aumenta efectivamente el campo receptivo del modelo, mejorando su capacidad para tareas posteriores. Al reemplazar el CIoU original con WIoUv3, el modelo prioriza el anclaje de cajas de calidad superior, ajustando dinámicamente los pesos para mejorar el rendimiento de detección de objetos pequeños. Los hallazgos experimentales en el conjunto de datos VisDrone2019 demuestran que, con una Intersección sobre Unión (IoU) de 0.5, YOLO-DroneMS logra un aumento del 3.6% en mAP@50 en comparación con el modelo YOLOv8n. Además, YOLO-DroneMS exhibe una velocidad de detección mejorada, aumentando el número de fotogramas por segundo (FPS) de 78.7 a 83.3. El modelo mejorado soporta diversas escalas de objetivos y logra altas tasas de reconocimiento, lo que lo hace muy adecuado para tareas de detección de objetos basadas en drones, particularmente en escenarios que involucran múltiples grupos de objetos.
Descripción
En los últimos años, la investigación sobre Vehículos Aéreos No Tripulados (VANT) se ha desarrollado rápidamente. En comparación con las imágenes de teledetección tradicionales, las imágenes de VANT exhiben fondos complejos, alta resolución y grandes diferencias en las escalas de los objetos. Por lo tanto, la detección de objetos en VANT es una tarea esencial pero desafiante. Este documento propone una red de detección de objetos a múltiples escalas, denominada YOLO-DroneMS (You Only Look Once for Drone Multi-Scale Object), para imágenes de VANT. Dirigiéndose a la conexión fundamental entre el backbone y el neck, se adopta el mecanismo de Atención de Núcleo Separado Grande (LSKA) con el Factor de Agrupamiento Piramidal Espacial (SPPF), donde se realiza un procesamiento ponderado de mapas de características a múltiples escalas para centrarse más en las características. Además, se introduce la Fusión de Secuencia de Escala Atencional DySample (ASF-DySample) para realizar la fusión de secuencia de escala atencional y el sobremuestreo dinámico para conservar recursos. Luego, se optimiza el cuello de botella de red parcial de etapa cruzada más rápido con dos convoluciones (denominado C2f) en el backbone utilizando el Bloque Móvil Residual Invertido y el Bloque de Reparametrización Dilatada (iRMB-DRB), que equilibra las ventajas del modelado global dinámico y la fusión de información local estática. Esta optimización aumenta efectivamente el campo receptivo del modelo, mejorando su capacidad para tareas posteriores. Al reemplazar el CIoU original con WIoUv3, el modelo prioriza el anclaje de cajas de calidad superior, ajustando dinámicamente los pesos para mejorar el rendimiento de detección de objetos pequeños. Los hallazgos experimentales en el conjunto de datos VisDrone2019 demuestran que, con una Intersección sobre Unión (IoU) de 0.5, YOLO-DroneMS logra un aumento del 3.6% en mAP@50 en comparación con el modelo YOLOv8n. Además, YOLO-DroneMS exhibe una velocidad de detección mejorada, aumentando el número de fotogramas por segundo (FPS) de 78.7 a 83.3. El modelo mejorado soporta diversas escalas de objetivos y logra altas tasas de reconocimiento, lo que lo hace muy adecuado para tareas de detección de objetos basadas en drones, particularmente en escenarios que involucran múltiples grupos de objetos.