Fusionando información de horizonte para localización visual
Autores: Zhang, Cheng; Yang, Yuchan; Wang, Yiwei; Zhang, Helu; Li, Guangyao
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Fusionando información de horizonte para localización visual
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Localización
Conducción autónoma
Reconocimiento de lugares
Marco de fusión de características
OrienterNet
Características de Stixel
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
La localización es la base y el núcleo de la conducción autónoma. Los métodos actuales de localización visual dependen en gran medida de mapas de alta definición. Sin embargo, los mapas de alta definición no solo son costosos, sino que también tienen un rendimiento en tiempo real deficiente. En la conducción autónoma, el reconocimiento de lugares es igualmente crucial y de gran importancia. Los métodos existentes de reconocimiento de lugares son deficientes en la extracción de características locales y pueden ocurrir errores de posición y orientación durante el proceso de coincidencia. Para abordar estas limitaciones, este documento presenta un robusto marco de fusión de características multidimensionales para el reconocimiento de lugares. A diferencia de los métodos existentes como OrienterNet, que procesan homogéneamente imágenes y mapas a nivel de características subyacentes mientras ignoran las disparidades modales, nuestro marco, aplicado a mapas 2D existentes, introduce un enfoque estructural-semántico heterogéneo inspirado en OrienterNet. Emplea características estructuradas de Stixel (que contienen información posicional) para capturar la geometría de la imagen, mientras representa el entorno de OSM a través de distribuciones de edificios basadas en coordenadas polares. Se diseñan codificadores dedicados para adaptarse a cada modalidad. Además, se generan características relacionales globales mediante el cálculo de distancias y ángulos entre la posición actual y los píxeles de los edificios en el mapa, proporcionando al sistema información detallada sobre la relación espacial. Posteriormente, las características individuales de Stixel se emparejan de forma rotacional con las relaciones globales para lograr un emparejamiento de características en ángulos diversos. Durante el proceso de emparejamiento de mapas BEV en OrienterNet, la localización visual depende principalmente de la información de la imagen horizontal. En contraste, el nuevo método propuesto aquí realiza el emparejamiento basado en la información de la imagen vertical mientras fusiona las pistas horizontales para completar el reconocimiento de lugares. Los extensos resultados experimentales demuestran que el método propuesto supera significativamente a los enfoques mencionados de vanguardia en precisión de localización, resolviendo efectivamente las limitaciones existentes.
Descripción
La localización es la base y el núcleo de la conducción autónoma. Los métodos actuales de localización visual dependen en gran medida de mapas de alta definición. Sin embargo, los mapas de alta definición no solo son costosos, sino que también tienen un rendimiento en tiempo real deficiente. En la conducción autónoma, el reconocimiento de lugares es igualmente crucial y de gran importancia. Los métodos existentes de reconocimiento de lugares son deficientes en la extracción de características locales y pueden ocurrir errores de posición y orientación durante el proceso de coincidencia. Para abordar estas limitaciones, este documento presenta un robusto marco de fusión de características multidimensionales para el reconocimiento de lugares. A diferencia de los métodos existentes como OrienterNet, que procesan homogéneamente imágenes y mapas a nivel de características subyacentes mientras ignoran las disparidades modales, nuestro marco, aplicado a mapas 2D existentes, introduce un enfoque estructural-semántico heterogéneo inspirado en OrienterNet. Emplea características estructuradas de Stixel (que contienen información posicional) para capturar la geometría de la imagen, mientras representa el entorno de OSM a través de distribuciones de edificios basadas en coordenadas polares. Se diseñan codificadores dedicados para adaptarse a cada modalidad. Además, se generan características relacionales globales mediante el cálculo de distancias y ángulos entre la posición actual y los píxeles de los edificios en el mapa, proporcionando al sistema información detallada sobre la relación espacial. Posteriormente, las características individuales de Stixel se emparejan de forma rotacional con las relaciones globales para lograr un emparejamiento de características en ángulos diversos. Durante el proceso de emparejamiento de mapas BEV en OrienterNet, la localización visual depende principalmente de la información de la imagen horizontal. En contraste, el nuevo método propuesto aquí realiza el emparejamiento basado en la información de la imagen vertical mientras fusiona las pistas horizontales para completar el reconocimiento de lugares. Los extensos resultados experimentales demuestran que el método propuesto supera significativamente a los enfoques mencionados de vanguardia en precisión de localización, resolviendo efectivamente las limitaciones existentes.