Coincidencia y Localización de UGVs Guiada por VLM y Espacialmente Consistente en un Mapa Cosido por UAV
Autores: Yang, Yusheng; Ma, Xinxu; Jiang, Ziluan; Sun, Pengfei; Zhao, Xun; Xie, Yangmin; Qian, Wei
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Coincidencia y Localización de UGVs Guiada por VLM y Espacialmente Consistente en un Mapa Cosido por UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Sistema global de navegación por satélite
Vehículos terrestres no tripulados
Vehículos aéreos no tripulados
Coincidencia de vista cruzada
Localización
Modelo de visión-lenguaje
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En entornos urbanos donde no se dispone de sistemas de navegación por satélite global (GNSS), los vehículos terrestres no tripulados (UGVs) enfrentan dificultades significativas para mantener una localización confiable debido a la oclusión y la complejidad estructural. Los vehículos aéreos no tripulados (UAVs), con su perspectiva global, proporcionan información complementaria para la coincidencia y localización de UGVs desde diferentes vistas. Sin embargo, la coincidencia y localización robustas desde diferentes vistas se ven obstaculizadas por distorsiones geométricas, inconsistencias semánticas y la falta de anclajes espaciales estables, lo que limita la efectividad de los métodos convencionales. Para superar estos desafíos, propusimos un marco de coincidencia y localización desde diferentes vistas (CVML) que contiene dos componentes. El primer componente es la red de coincidencia desde diferentes vistas (VSCM-Net) guiada por el modelo de visión-lenguaje (VLM) y espacialmente consistente, que integra dos módulos de atención novedosos. Uno es el módulo de corrección posicional guiado por VLM que aprovecha las pistas semánticas para refinar la imagen proyectada del UGV dentro del mapa del UAV, y el otro es el módulo de atención consciente de la forma que impone consistencia topológica entre las vistas terrestres y aéreas. El segundo componente es un módulo de mapeo de terrestre a aéreo que proyecta las correspondencias desde diferentes vistas de la imagen del UGV en el mapa cosido del UAV, localizando así la posición de captura de la imagen del UGV y permitiendo una localización y navegación precisas a nivel de trayectoria. Experimentos extensivos en conjuntos de datos públicos y autocollectados demuestran que el método propuesto logra una superior precisión, robustez y aplicabilidad en el mundo real en comparación con los métodos de vanguardia tanto en coincidencia de imágenes desde diferentes vistas como en localización.
Descripción
En entornos urbanos donde no se dispone de sistemas de navegación por satélite global (GNSS), los vehículos terrestres no tripulados (UGVs) enfrentan dificultades significativas para mantener una localización confiable debido a la oclusión y la complejidad estructural. Los vehículos aéreos no tripulados (UAVs), con su perspectiva global, proporcionan información complementaria para la coincidencia y localización de UGVs desde diferentes vistas. Sin embargo, la coincidencia y localización robustas desde diferentes vistas se ven obstaculizadas por distorsiones geométricas, inconsistencias semánticas y la falta de anclajes espaciales estables, lo que limita la efectividad de los métodos convencionales. Para superar estos desafíos, propusimos un marco de coincidencia y localización desde diferentes vistas (CVML) que contiene dos componentes. El primer componente es la red de coincidencia desde diferentes vistas (VSCM-Net) guiada por el modelo de visión-lenguaje (VLM) y espacialmente consistente, que integra dos módulos de atención novedosos. Uno es el módulo de corrección posicional guiado por VLM que aprovecha las pistas semánticas para refinar la imagen proyectada del UGV dentro del mapa del UAV, y el otro es el módulo de atención consciente de la forma que impone consistencia topológica entre las vistas terrestres y aéreas. El segundo componente es un módulo de mapeo de terrestre a aéreo que proyecta las correspondencias desde diferentes vistas de la imagen del UGV en el mapa cosido del UAV, localizando así la posición de captura de la imagen del UGV y permitiendo una localización y navegación precisas a nivel de trayectoria. Experimentos extensivos en conjuntos de datos públicos y autocollectados demuestran que el método propuesto logra una superior precisión, robustez y aplicabilidad en el mundo real en comparación con los métodos de vanguardia tanto en coincidencia de imágenes desde diferentes vistas como en localización.