Un método de registro de imágenes multimodal para la navegación visual de UAV basado en la fusión de características y transformadores
Autores: He, Ruofei; Long, Shuangxing; Sun, Wei; Liu, Hongjuan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un método de registro de imágenes multimodal para la navegación visual de UAV basado en la fusión de características y transformadores
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Imágenes
Cámaras de drones
Mapas satelitales de Google
Navegación de UAV
Red híbrida CNN-Transformer
Detección de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El uso de imágenes capturadas por cámaras de drones y su comparación con mapas satelitales conocidos de Google para obtener la ubicación actual del dron es una forma importante de navegación de UAV en entornos sin GPS. Sin embargo, debido a las diferencias inherentes de modalidad y a las deformaciones geométricas significativas, el registro de imágenes entre modalidades es un desafío. Este documento propone un modelo de red híbrido CNN-Transformer para la detección y coincidencia de características. Se utiliza ResNet50 como la red base para la extracción de características. Se emplea un módulo de fusión de características mejorado para fusionar mapas de características de diferentes niveles, y luego se utiliza una estructura de codificador-decodificador Transformer para la coincidencia de características y obtener correspondencias preliminares. Finalmente, se utiliza un método de eliminación de outliers geométricos (GSM) para eliminar puntos no coincidentes basándose en la similitud geométrica de los inliers, lo que resulta en correspondencias más robustas. Se realizaron experimentos cualitativos y cuantitativos en conjuntos de datos de imágenes multimodales capturadas por UAV; la tasa de coincidencia correcta mejoró en un 52%, 21% y 15%, respectivamente, y el error se redujo en un 36% en comparación con el algoritmo 3MRS. Se llevaron a cabo un total de 56 experimentos en escenarios reales, con una tasa de éxito de localización del 91.1%, y el RMSE de la posición del UAV fue de 4.6 m.
Descripción
El uso de imágenes capturadas por cámaras de drones y su comparación con mapas satelitales conocidos de Google para obtener la ubicación actual del dron es una forma importante de navegación de UAV en entornos sin GPS. Sin embargo, debido a las diferencias inherentes de modalidad y a las deformaciones geométricas significativas, el registro de imágenes entre modalidades es un desafío. Este documento propone un modelo de red híbrido CNN-Transformer para la detección y coincidencia de características. Se utiliza ResNet50 como la red base para la extracción de características. Se emplea un módulo de fusión de características mejorado para fusionar mapas de características de diferentes niveles, y luego se utiliza una estructura de codificador-decodificador Transformer para la coincidencia de características y obtener correspondencias preliminares. Finalmente, se utiliza un método de eliminación de outliers geométricos (GSM) para eliminar puntos no coincidentes basándose en la similitud geométrica de los inliers, lo que resulta en correspondencias más robustas. Se realizaron experimentos cualitativos y cuantitativos en conjuntos de datos de imágenes multimodales capturadas por UAV; la tasa de coincidencia correcta mejoró en un 52%, 21% y 15%, respectivamente, y el error se redujo en un 36% en comparación con el algoritmo 3MRS. Se llevaron a cabo un total de 56 experimentos en escenarios reales, con una tasa de éxito de localización del 91.1%, y el RMSE de la posición del UAV fue de 4.6 m.