Percepción de características de alta resolución para el algoritmo de detección de objetivos de vehículos aéreos no tripulados
Autores: Liu, Shi; Zhu, Meng; Tao, Rui; Ren, Honge
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Percepción de características de alta resolución para el algoritmo de detección de objetivos de vehículos aéreos no tripulados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículo aéreo no tripulado
Algoritmo de detección de objetivos
Detección de objetivos pequeños
Módulo de extracción de características
Inspección en tiempo real
Representaciones de características espaciales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las imágenes aéreas de vehículos aéreos no tripulados (VANT) a menudo presentan desafíos como tamaños de objetivo pequeños, alta densidad de objetivos, ángulos de disparo variados y poses dinámicas. Los algoritmos de detección de objetivos existentes muestran un notable descenso en el rendimiento cuando se enfrentan a imágenes aéreas de VANT en comparación con escenas generales. Este documento propone un destacado algoritmo de detección de pequeños objetivos para VANT, llamado Percepción de Características Finas YOLOv8s-P2 (FGFP-YOLOv8s-P2), basado en la arquitectura YOLOv8s-P2. Nos especializamos en mejorar la precisión de inspección mientras cumplimos con los requisitos de inspección en tiempo real. Primero, mejoramos la información de píxeles de los objetivos utilizando técnicas de entrenamiento e inferencia asistidas por segmentos, reduciendo así las detecciones perdidas. Luego, proponemos un módulo de extracción de características con convoluciones deformables. Desacoplar el proceso de aprendizaje del desplazamiento y el escalar de modulación permite una mejor adaptación a las variaciones en el tamaño y la forma de diversos objetivos. Además, introducimos un módulo de agrupamiento en pirámide espacial de gran núcleo. Al encadenar convoluciones, aprovechamos las ventajas de los grandes núcleos para ajustar flexiblemente la atención del modelo a varias regiones de mapas de características de alto nivel, adaptándose mejor a escenas visuales complejas y eludiendo las desventajas de costo asociadas con los grandes núcleos. Para igualar el excelente rendimiento de detección en tiempo real del modelo base, proponemos un Bloque Mejorado de Random FasterNet. Este bloque introduce aleatoriedad durante la convolución y captura características espaciales de canales de transformación no lineales, enriqueciendo las representaciones de características y mejorando la eficiencia del modelo. Amplios experimentos y evaluaciones exhaustivas en los conjuntos de datos VisDrone2019 y DOTA-v1.0 demuestran la efectividad de FGFP-YOLOv8s-P2. Este logro proporciona un sólido soporte técnico para la detección eficiente de pequeños objetivos por parte de VANT en escenarios complejos.
Descripción
Las imágenes aéreas de vehículos aéreos no tripulados (VANT) a menudo presentan desafíos como tamaños de objetivo pequeños, alta densidad de objetivos, ángulos de disparo variados y poses dinámicas. Los algoritmos de detección de objetivos existentes muestran un notable descenso en el rendimiento cuando se enfrentan a imágenes aéreas de VANT en comparación con escenas generales. Este documento propone un destacado algoritmo de detección de pequeños objetivos para VANT, llamado Percepción de Características Finas YOLOv8s-P2 (FGFP-YOLOv8s-P2), basado en la arquitectura YOLOv8s-P2. Nos especializamos en mejorar la precisión de inspección mientras cumplimos con los requisitos de inspección en tiempo real. Primero, mejoramos la información de píxeles de los objetivos utilizando técnicas de entrenamiento e inferencia asistidas por segmentos, reduciendo así las detecciones perdidas. Luego, proponemos un módulo de extracción de características con convoluciones deformables. Desacoplar el proceso de aprendizaje del desplazamiento y el escalar de modulación permite una mejor adaptación a las variaciones en el tamaño y la forma de diversos objetivos. Además, introducimos un módulo de agrupamiento en pirámide espacial de gran núcleo. Al encadenar convoluciones, aprovechamos las ventajas de los grandes núcleos para ajustar flexiblemente la atención del modelo a varias regiones de mapas de características de alto nivel, adaptándose mejor a escenas visuales complejas y eludiendo las desventajas de costo asociadas con los grandes núcleos. Para igualar el excelente rendimiento de detección en tiempo real del modelo base, proponemos un Bloque Mejorado de Random FasterNet. Este bloque introduce aleatoriedad durante la convolución y captura características espaciales de canales de transformación no lineales, enriqueciendo las representaciones de características y mejorando la eficiencia del modelo. Amplios experimentos y evaluaciones exhaustivas en los conjuntos de datos VisDrone2019 y DOTA-v1.0 demuestran la efectividad de FGFP-YOLOv8s-P2. Este logro proporciona un sólido soporte técnico para la detección eficiente de pequeños objetivos por parte de VANT en escenarios complejos.