NATCA Detección de Objetos Pequeños Basada en YOLO para Imágenes Aéreas
Autores: Zhu, Yicheng; Ai, Zhenhua; Yan, Jinqiang; Li, Silong; Yang, Guowei; Yu, Teng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
NATCA Detección de Objetos Pequeños Basada en YOLO para Imágenes Aéreas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Detección de objetos
NATCA
Imágenes aéreas
Objetos pequeños
Transformador de atención vecinal
YOLO
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El modelo de detección de objetos en escenas de imágenes aéreas de UAV enfrenta desafíos como cambios de escala significativos de ciertos objetos y la presencia de fondos complejos. Este artículo tiene como objetivo abordar la detección de objetos pequeños en imágenes aéreas utilizando NATCA (atención de vecindario Transformer atención de coordenadas) YOLO. Específicamente, la red de extracción de características incorpora un transformador de atención de vecindario (NAT) en la última capa para capturar información de contexto global y extraer características diversas. Además, la red de fusión de características (Neck) incorpora un módulo de atención de coordenadas (CA) para capturar información de canal e información posicional de mayor alcance. Además, la función de activación en el bloque convolucional original se reemplaza por Meta-ACON. El NAT sirve como la capa de predicción en la nueva red, que se evalúa utilizando el conjunto de datos de detección de objetos VisDrone2019-DET como referencia, y se prueba en el conjunto de datos VisDrone2019-DET-test-dev. Para evaluar el rendimiento del modelo NATCA YOLO en la detección de objetos pequeños en imágenes aéreas, se emplean otras redes de detección, como Faster R-CNN, RetinaNet y SSD, para comparación en el conjunto de prueba. Los resultados demuestran que la detección NATCA YOLO logra una precisión promedio del 42%, lo que representa una mejora del 2.9% en comparación con la red de detección de última generación TPH-YOLOv5.
Descripción
El modelo de detección de objetos en escenas de imágenes aéreas de UAV enfrenta desafíos como cambios de escala significativos de ciertos objetos y la presencia de fondos complejos. Este artículo tiene como objetivo abordar la detección de objetos pequeños en imágenes aéreas utilizando NATCA (atención de vecindario Transformer atención de coordenadas) YOLO. Específicamente, la red de extracción de características incorpora un transformador de atención de vecindario (NAT) en la última capa para capturar información de contexto global y extraer características diversas. Además, la red de fusión de características (Neck) incorpora un módulo de atención de coordenadas (CA) para capturar información de canal e información posicional de mayor alcance. Además, la función de activación en el bloque convolucional original se reemplaza por Meta-ACON. El NAT sirve como la capa de predicción en la nueva red, que se evalúa utilizando el conjunto de datos de detección de objetos VisDrone2019-DET como referencia, y se prueba en el conjunto de datos VisDrone2019-DET-test-dev. Para evaluar el rendimiento del modelo NATCA YOLO en la detección de objetos pequeños en imágenes aéreas, se emplean otras redes de detección, como Faster R-CNN, RetinaNet y SSD, para comparación en el conjunto de prueba. Los resultados demuestran que la detección NATCA YOLO logra una precisión promedio del 42%, lo que representa una mejora del 2.9% en comparación con la red de detección de última generación TPH-YOLOv5.