Investigación sobre el método de detección y reconocimiento de objetos para imágenes aéreas de UAV basado en YOLOv5 mejorado
Autores: Zhang, Heng; Shao, Faming; He, Xiaohui; Zhang, Zihan; Cai, Yonggen; Bi, Shaohua
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Investigación sobre el método de detección y reconocimiento de objetos para imágenes aéreas de UAV basado en YOLOv5 mejorado
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Detección de objetos
Método de reconocimiento
YOLOv5
Núcleos convolucionales de Gabor
Mecanismo de atención por coordenadas
BiFPN
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En este artículo, se propone un método de detección y reconocimiento de objetos basado en YOLOv5 mejorado para su aplicación en imágenes aéreas de vehículos aéreos no tripulados (UAV). En primer lugar, mejoramos la función de Gabor tradicional para obtener núcleos de convolución de Gabor con mejores propiedades de realce de bordes. Utilizamos ocho núcleos de convolución de Gabor para realzar los bordes de los objetos desde ocho direcciones, y la imagen mejorada tiene características de borde obvias, proporcionando así la mejor área de objeto para el posterior trabajo de extracción de características profundas. En segundo lugar, añadimos un mecanismo de atención de coordenadas (CA) a la columna vertebral de YOLOv5. El mecanismo CA ligero y plug-and-play considera la información tanto de la ubicación espacial como del canal de las características y puede capturar con precisión las dependencias de largo alcance de las posiciones. CA es como los ojos de YOLOv5, facilitando que la red encuentre la región de interés (ROI). Una vez más, reemplazamos la Red de Agregación de Caminos (PANet) por una Red de Pirámide de Características Bidireccional (BiFPN) en el cuello de YOLOv5. BiFPN realiza operaciones de ponderación en diferentes capas de características de entrada, lo que ayuda a equilibrar la contribución de cada capa. Además, BiFPN añade ramas de características conectadas horizontalmente a través de nodos en una estructura de fusión de características bidireccional para fusionar información de características más profundas. Finalmente, entrenamos el modelo YOLOv5 mejorado en nuestro conjunto de datos integrado LSDUVD y lo comparamos con otros modelos en múltiples conjuntos de datos. Los resultados muestran que nuestro método tiene el mejor efecto de convergencia y valor de mAP, lo que demuestra que nuestro método tiene ventajas únicas en el procesamiento de tareas de detección de imágenes aéreas de UAV.
Descripción
En este artículo, se propone un método de detección y reconocimiento de objetos basado en YOLOv5 mejorado para su aplicación en imágenes aéreas de vehículos aéreos no tripulados (UAV). En primer lugar, mejoramos la función de Gabor tradicional para obtener núcleos de convolución de Gabor con mejores propiedades de realce de bordes. Utilizamos ocho núcleos de convolución de Gabor para realzar los bordes de los objetos desde ocho direcciones, y la imagen mejorada tiene características de borde obvias, proporcionando así la mejor área de objeto para el posterior trabajo de extracción de características profundas. En segundo lugar, añadimos un mecanismo de atención de coordenadas (CA) a la columna vertebral de YOLOv5. El mecanismo CA ligero y plug-and-play considera la información tanto de la ubicación espacial como del canal de las características y puede capturar con precisión las dependencias de largo alcance de las posiciones. CA es como los ojos de YOLOv5, facilitando que la red encuentre la región de interés (ROI). Una vez más, reemplazamos la Red de Agregación de Caminos (PANet) por una Red de Pirámide de Características Bidireccional (BiFPN) en el cuello de YOLOv5. BiFPN realiza operaciones de ponderación en diferentes capas de características de entrada, lo que ayuda a equilibrar la contribución de cada capa. Además, BiFPN añade ramas de características conectadas horizontalmente a través de nodos en una estructura de fusión de características bidireccional para fusionar información de características más profundas. Finalmente, entrenamos el modelo YOLOv5 mejorado en nuestro conjunto de datos integrado LSDUVD y lo comparamos con otros modelos en múltiples conjuntos de datos. Los resultados muestran que nuestro método tiene el mejor efecto de convergencia y valor de mAP, lo que demuestra que nuestro método tiene ventajas únicas en el procesamiento de tareas de detección de imágenes aéreas de UAV.