Combinando la fusión de cámara-LiDAR y la planificación de movimientos utilizando una representación en vista de pájaro para la conducción autónoma de extremo a extremo
Autores: Yu, Ze; Li, Jun; Wei, Yuzhen; Lyu, Yuandong; Tan, Xiaojun
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Combinando la fusión de cámara-LiDAR y la planificación de movimientos utilizando una representación en vista de pájaro para la conducción autónoma de extremo a extremo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Conducción autónoma
Fusión de sensores
Planificación de movimientos
Representación BEV
Construcción de características
Mecanismo de atención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La conducción autónoma de extremo a extremo se ha convertido en un enfoque clave de investigación en vehículos autónomos. Sin embargo, los métodos existentes tienen dificultades para fusionar de manera efectiva las entradas de sensores heterogéneos y convertir características perceptuales densas en representaciones de movimiento escasas. Para abordar estos desafíos, proponemos BevDrive, un nuevo marco de conducción autónoma de extremo a extremo que unifica la fusión de cámara-LiDAR y la planificación de movimiento a través de una representación de vista de pájaro (BEV). BevDrive consta de tres módulos centrales: el módulo de construcción de características BEV guiado bidireccionalmente, el módulo de fusión de características BEV de atención dual y el módulo de planificación de movimiento basado en BEV. El módulo de construcción de características BEV guiado bidireccionalmente comprende dos ramas: la construcción de características BEV de imagen guiada por profundidad y la construcción de características BEV de LiDAR guiada por imagen. La construcción de características BEV de imagen guiada por profundidad emplea un enfoque de elevación y proyección guiado por información de profundidad de LiDAR, transformando las características de imagen en una representación BEV. Mientras tanto, la construcción de características BEV de LiDAR guiada por imagen enriquece las características BEV escasas de LiDAR al integrar información complementaria de las imágenes. Luego, el módulo de fusión de características BEV de atención dual combina características BEV multimodales a niveles locales y globales utilizando un enfoque híbrido de autoatención de ventana y mecanismos de autoatención global. Finalmente, el módulo de planificación de movimiento basado en BEV integra percepción y planificación al refinar consultas de control y trayectoria a través de interacciones con el contexto de la escena en las características BEV fusionadas, generando puntos de trayectoria precisos y comandos de control. Experimentos extensivos en el benchmark CARLA Town05 Long demuestran que BevDrive logra un rendimiento de vanguardia. Además, validamos la viabilidad del algoritmo propuesto en una plataforma de vehículo del mundo real, confirmando su aplicabilidad práctica y robustez.
Descripción
La conducción autónoma de extremo a extremo se ha convertido en un enfoque clave de investigación en vehículos autónomos. Sin embargo, los métodos existentes tienen dificultades para fusionar de manera efectiva las entradas de sensores heterogéneos y convertir características perceptuales densas en representaciones de movimiento escasas. Para abordar estos desafíos, proponemos BevDrive, un nuevo marco de conducción autónoma de extremo a extremo que unifica la fusión de cámara-LiDAR y la planificación de movimiento a través de una representación de vista de pájaro (BEV). BevDrive consta de tres módulos centrales: el módulo de construcción de características BEV guiado bidireccionalmente, el módulo de fusión de características BEV de atención dual y el módulo de planificación de movimiento basado en BEV. El módulo de construcción de características BEV guiado bidireccionalmente comprende dos ramas: la construcción de características BEV de imagen guiada por profundidad y la construcción de características BEV de LiDAR guiada por imagen. La construcción de características BEV de imagen guiada por profundidad emplea un enfoque de elevación y proyección guiado por información de profundidad de LiDAR, transformando las características de imagen en una representación BEV. Mientras tanto, la construcción de características BEV de LiDAR guiada por imagen enriquece las características BEV escasas de LiDAR al integrar información complementaria de las imágenes. Luego, el módulo de fusión de características BEV de atención dual combina características BEV multimodales a niveles locales y globales utilizando un enfoque híbrido de autoatención de ventana y mecanismos de autoatención global. Finalmente, el módulo de planificación de movimiento basado en BEV integra percepción y planificación al refinar consultas de control y trayectoria a través de interacciones con el contexto de la escena en las características BEV fusionadas, generando puntos de trayectoria precisos y comandos de control. Experimentos extensivos en el benchmark CARLA Town05 Long demuestran que BevDrive logra un rendimiento de vanguardia. Además, validamos la viabilidad del algoritmo propuesto en una plataforma de vehículo del mundo real, confirmando su aplicabilidad práctica y robustez.