AGCosPlace: Un algoritmo de posicionamiento visual de UAV basado en Transformer
Autores: Guo, Ya; Zhou, Yatong; Yang, Fan
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
AGCosPlace: Un algoritmo de posicionamiento visual de UAV basado en Transformer
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Algoritmo propuesto
Posicionamiento visual
AGCosPlace
Arquitectura Transformer
Mecanismos de atención
Imágenes de UAV
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Para abordar la limitación y obtener la posición del dron incluso cuando las poses relativas y las intrínsecas de la cámara del dron son desconocidas, se propone un algoritmo de posicionamiento visual basado en la recuperación de imágenes llamado AGCosPlace, que aprovecha la arquitectura Transformer para lograr un mejor rendimiento. Nuestro enfoque implica someter el mapa de características de la columna vertebral a una operación de codificación que incorpora mecanismos de atención, codificación de perceptrones multicapa y un módulo de red gráfica. Esta operación de codificación permite una mejor agregación de la información contextual presente en la imagen. Posteriormente, el módulo de agregación con agrupamiento adaptativo dinámico produce un descriptor con una dimensionalidad apropiada, que luego se pasa al clasificador para reconocer la posición. Considerando la complejidad asociada con el etiquetado de etiquetas de posicionamiento visual para imágenes de UAV, la red de posicionamiento visual se entrena utilizando el conjunto de datos SF-XL de Google Street View, que está disponible públicamente. Se evalúa el rendimiento del modelo de red entrenado en un conjunto de pruebas de perspectiva de UAV personalizado. Los resultados experimentales demuestran que nuestro algoritmo propuesto, que mejora las redes de columna vertebral ResNet en el conjunto de pruebas SF-XL, exhibe un rendimiento excelente en el conjunto de pruebas de UAV. El algoritmo logra mejoras notables en las cuatro métricas de evaluación: R@1, R@5, R@10 y R@20. Estos resultados confirman que la red de posicionamiento visual entrenada puede emplearse de manera efectiva en tareas de posicionamiento visual de UAV.
Descripción
Para abordar la limitación y obtener la posición del dron incluso cuando las poses relativas y las intrínsecas de la cámara del dron son desconocidas, se propone un algoritmo de posicionamiento visual basado en la recuperación de imágenes llamado AGCosPlace, que aprovecha la arquitectura Transformer para lograr un mejor rendimiento. Nuestro enfoque implica someter el mapa de características de la columna vertebral a una operación de codificación que incorpora mecanismos de atención, codificación de perceptrones multicapa y un módulo de red gráfica. Esta operación de codificación permite una mejor agregación de la información contextual presente en la imagen. Posteriormente, el módulo de agregación con agrupamiento adaptativo dinámico produce un descriptor con una dimensionalidad apropiada, que luego se pasa al clasificador para reconocer la posición. Considerando la complejidad asociada con el etiquetado de etiquetas de posicionamiento visual para imágenes de UAV, la red de posicionamiento visual se entrena utilizando el conjunto de datos SF-XL de Google Street View, que está disponible públicamente. Se evalúa el rendimiento del modelo de red entrenado en un conjunto de pruebas de perspectiva de UAV personalizado. Los resultados experimentales demuestran que nuestro algoritmo propuesto, que mejora las redes de columna vertebral ResNet en el conjunto de pruebas SF-XL, exhibe un rendimiento excelente en el conjunto de pruebas de UAV. El algoritmo logra mejoras notables en las cuatro métricas de evaluación: R@1, R@5, R@10 y R@20. Estos resultados confirman que la red de posicionamiento visual entrenada puede emplearse de manera efectiva en tareas de posicionamiento visual de UAV.