Ats-yolov7: un método de detección de objetos en tiempo real a varias escalas para imágenes aéreas de UAV basado en YOLOv7 mejorado
Autores: Zhang, Heng; Shao, Faming; He, Xiaohui; Chu, Weijun; Zhao, Dewei; Zhang, Zihan; Bi, Shaohua
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Ats-yolov7: un método de detección de objetos en tiempo real a varias escalas para imágenes aéreas de UAV basado en YOLOv7 mejorado
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Objetos
Imágenes aéreas de UAV
Multi-escala
Detección de objetos
ATS-YOLOv7
Red de pirámide de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 46
Citaciones: Sin citaciones
Los objetos en las imágenes aéreas de UAV tienen múltiples escalas, distribución densa y oclusión, lo que plantea desafíos considerables para la detección de objetos. Para abordar este problema, este documento propone un método de detección de objetos en tiempo real a múltiples escalas basado en un modelo YOLOv7 mejorado (ATS-YOLOv7) para imágenes aéreas de UAV. Primero, este documento introduce una red de pirámide de características, AF-FPN, que se compone de un módulo de atención adaptativa (AAM) y un módulo de mejora de características (FEM). AF-FPN reduce la pérdida de información de características profundas debido a la reducción de canales de características en el proceso de convolución a través del AAM y FEM, fortalece la capacidad de percepción de características y mejora la velocidad y precisión de detección para objetos a múltiples escalas. En segundo lugar, agregamos una cabeza de predicción basada en un bloque codificador de transformador sobre la base de la estructura de tres cabezas de YOLOv7, mejorando la capacidad del modelo para capturar información global y expresión de características, logrando así una detección eficiente de objetos con escalas pequeñas y oclusión densa. Además, como la función de pérdida de ubicación de YOLOv7, CIoU (intersección completa sobre unión), no puede facilitar la regresión del ángulo de la caja de predicción a la caja de verdad de terreno, lo que resulta en una tasa de convergencia lenta durante el entrenamiento del modelo, este documento propone una función de pérdida con regresión de ángulo, SIoU (intersección suave sobre unión), para acelerar la tasa de convergencia durante el entrenamiento del modelo. Finalmente, se realizan una serie de experimentos comparativos en el conjunto de datos DIOR. Los resultados indican que ATS-YOLOv7 tiene la mejor precisión de detección (del 87%) y cumple con los requisitos de tiempo real del procesamiento de imágenes (velocidad de detección de 94.2 FPS).
Descripción
Los objetos en las imágenes aéreas de UAV tienen múltiples escalas, distribución densa y oclusión, lo que plantea desafíos considerables para la detección de objetos. Para abordar este problema, este documento propone un método de detección de objetos en tiempo real a múltiples escalas basado en un modelo YOLOv7 mejorado (ATS-YOLOv7) para imágenes aéreas de UAV. Primero, este documento introduce una red de pirámide de características, AF-FPN, que se compone de un módulo de atención adaptativa (AAM) y un módulo de mejora de características (FEM). AF-FPN reduce la pérdida de información de características profundas debido a la reducción de canales de características en el proceso de convolución a través del AAM y FEM, fortalece la capacidad de percepción de características y mejora la velocidad y precisión de detección para objetos a múltiples escalas. En segundo lugar, agregamos una cabeza de predicción basada en un bloque codificador de transformador sobre la base de la estructura de tres cabezas de YOLOv7, mejorando la capacidad del modelo para capturar información global y expresión de características, logrando así una detección eficiente de objetos con escalas pequeñas y oclusión densa. Además, como la función de pérdida de ubicación de YOLOv7, CIoU (intersección completa sobre unión), no puede facilitar la regresión del ángulo de la caja de predicción a la caja de verdad de terreno, lo que resulta en una tasa de convergencia lenta durante el entrenamiento del modelo, este documento propone una función de pérdida con regresión de ángulo, SIoU (intersección suave sobre unión), para acelerar la tasa de convergencia durante el entrenamiento del modelo. Finalmente, se realizan una serie de experimentos comparativos en el conjunto de datos DIOR. Los resultados indican que ATS-YOLOv7 tiene la mejor precisión de detección (del 87%) y cumple con los requisitos de tiempo real del procesamiento de imágenes (velocidad de detección de 94.2 FPS).