G-YOLO: Un modelo ligero de detección de objetivos de teledetección aérea infrarroja para UAVs basado en YOLOv8
Autores: Zhao, Xiaofeng; Zhang, Wenwen; Xia, Yuting; Zhang, Hui; Zheng, Chao; Ma, Junyi; Zhang, Zhili
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
G-YOLO: Un modelo ligero de detección de objetivos de teledetección aérea infrarroja para UAVs basado en YOLOv8
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Modelo de detección de objetivos ligero
UAV
Infrarrojo
Parámetros de red
Eficiencia de detección
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Se propone un modelo ligero de detección de objetivos por infrarrojos, G-YOLO, basado en un vehículo aéreo no tripulado (UAV) para abordar los problemas de baja precisión en la detección de objetivos en imágenes aéreas de UAV en escenarios terrestres complejos y modelos de red grandes que son difíciles de aplicar en plataformas móviles o embebidas. En primer lugar, se mejora y diseña la red de extracción de características de la columna vertebral YOLOv8 basada en la red ligera, GhostBottleneckV2, y la parte restante de la red de columna vertebral adopta la convolución separable en profundidad, DWConv, para reemplazar parte de la convolución estándar, lo que retiene efectivamente el efecto de detección del modelo mientras reduce considerablemente el número de parámetros y cálculos del modelo. En segundo lugar, se mejora la estructura del cuello mediante el módulo ODConv, que adopta una estructura de convolución adaptativa para ajustar de manera adaptativa el tamaño del núcleo de convolución y el tamaño del paso, lo que permite una extracción y detección de características más efectivas basadas en objetivos de diferentes escalas. Al mismo tiempo, la estructura del cuello se optimiza aún más utilizando el mecanismo de atención, SEAttention, para mejorar la capacidad del modelo para aprender información global de los mapas de características de entrada, que luego se aplica a cada canal de cada mapa de características para realzar la información útil en un canal específico y mejorar el rendimiento de detección del modelo. Finalmente, la introducción de la función de pérdida SlideLoss permite al modelo calcular las diferencias entre las cajas delimitadoras predichas y las reales durante el proceso de entrenamiento, y ajustar los parámetros del modelo en función de estas diferencias para mejorar la precisión y eficiencia de la detección de objetos. Los resultados experimentales muestran que, en comparación con YOLOv8n, el G-YOLO reduce las tasas de detección fallida y de detección errónea en la detección de pequeños objetivos infrarrojos en fondos complejos. El número de parámetros del modelo se reduce en un 74.2%, el número de flotantes computacionales se reduce en un 54.3%, el FPS mejora en 71, lo que mejora la eficiencia de detección del modelo, y la precisión media (mAP) alcanza el 91.4%, lo que verifica la validez del modelo para la detección de pequeños objetivos infrarrojos basada en UAV. Además, el FPS del modelo alcanza 556, y será adecuado para tareas de detección más amplias y complejas, como objetivos pequeños, objetivos a larga distancia y otras escenas complejas.
Descripción
Se propone un modelo ligero de detección de objetivos por infrarrojos, G-YOLO, basado en un vehículo aéreo no tripulado (UAV) para abordar los problemas de baja precisión en la detección de objetivos en imágenes aéreas de UAV en escenarios terrestres complejos y modelos de red grandes que son difíciles de aplicar en plataformas móviles o embebidas. En primer lugar, se mejora y diseña la red de extracción de características de la columna vertebral YOLOv8 basada en la red ligera, GhostBottleneckV2, y la parte restante de la red de columna vertebral adopta la convolución separable en profundidad, DWConv, para reemplazar parte de la convolución estándar, lo que retiene efectivamente el efecto de detección del modelo mientras reduce considerablemente el número de parámetros y cálculos del modelo. En segundo lugar, se mejora la estructura del cuello mediante el módulo ODConv, que adopta una estructura de convolución adaptativa para ajustar de manera adaptativa el tamaño del núcleo de convolución y el tamaño del paso, lo que permite una extracción y detección de características más efectivas basadas en objetivos de diferentes escalas. Al mismo tiempo, la estructura del cuello se optimiza aún más utilizando el mecanismo de atención, SEAttention, para mejorar la capacidad del modelo para aprender información global de los mapas de características de entrada, que luego se aplica a cada canal de cada mapa de características para realzar la información útil en un canal específico y mejorar el rendimiento de detección del modelo. Finalmente, la introducción de la función de pérdida SlideLoss permite al modelo calcular las diferencias entre las cajas delimitadoras predichas y las reales durante el proceso de entrenamiento, y ajustar los parámetros del modelo en función de estas diferencias para mejorar la precisión y eficiencia de la detección de objetos. Los resultados experimentales muestran que, en comparación con YOLOv8n, el G-YOLO reduce las tasas de detección fallida y de detección errónea en la detección de pequeños objetivos infrarrojos en fondos complejos. El número de parámetros del modelo se reduce en un 74.2%, el número de flotantes computacionales se reduce en un 54.3%, el FPS mejora en 71, lo que mejora la eficiencia de detección del modelo, y la precisión media (mAP) alcanza el 91.4%, lo que verifica la validez del modelo para la detección de pequeños objetivos infrarrojos basada en UAV. Además, el FPS del modelo alcanza 556, y será adecuado para tareas de detección más amplias y complejas, como objetivos pequeños, objetivos a larga distancia y otras escenas complejas.