PLC-Fusion: Fusión Jerárquica y Profunda de Cámaras LiDAR Basada en Perspectivas para la Detección de Objetos 3D en Vehículos Autónomos
Autores: Mushtaq, Husnain; Deng, Xiaoheng; Azhar, Fizza; Ali, Mubashir; Raza Sherazi, Hafiz Husnain
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
PLC-Fusion: Fusión Jerárquica y Profunda de Cámaras LiDAR Basada en Perspectivas para la Detección de Objetos 3D en Vehículos Autónomos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Detección de objetos
Fusión de LiDAR y cámara
Consciente de la perspectiva
Transformador de visión jerárquico
3D
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección precisa de objetos en 3D es esencial para la conducción autónoma, sin embargo, los modelos tradicionales de LiDAR a menudo tienen dificultades con nubes de puntos dispersas. Proponemos una fusión de LiDAR y cámara basada en transformadores jerárquicos conscientes de la perspectiva (PLC-Fusion) para la detección de objetos en 3D para abordar esto. Este marco eficiente de detección de objetos en 3D multimodal integra datos de LiDAR y cámara para mejorar el rendimiento. Primero, nuestro método mejora los datos de LiDAR proyectándolos en un plano 2D, lo que permite la extracción de características de perspectiva de objetos a partir de un mapa de probabilidad a través del módulo de Muestreo de Perspectiva de Objetos (OPS). Incorpora un detector de perspectiva ligero, que consiste en subredes 2D y 3D monoculares interconectadas, para extraer características de imagen y generar propuestas de perspectiva de objetos al predecir y refinar candidatos 3D con las mejores puntuaciones. En segundo lugar, aprovecha dos transformadores independientes: CamViT para características de imagen 2D y LidViT para características de nubes de puntos 3D. Estas representaciones basadas en ViT se fusionan a través del módulo de Fusión Cruzada para el aprendizaje de representaciones jerárquicas y profundas, mejorando el rendimiento y la eficiencia computacional. Estos mecanismos mejoran la utilización de características semánticas en una región de interés (ROI) para obtener características de puntos más representativas, lo que lleva a una fusión más efectiva de la información de ambas fuentes de LiDAR y cámara. PLC-Fusion supera a los métodos existentes, logrando una precisión media promedio (mAP) del 83.52% y 90.37% para la detección en 3D y BEV, respectivamente. Además, PLC-Fusion mantiene un tiempo de inferencia competitivo de 0.18 s. Nuestro modelo aborda los cuellos de botella computacionales al eliminar la necesidad de búsquedas densas en BEV y mecanismos de atención global, mientras mejora el rango y la precisión de detección.
Descripción
La detección precisa de objetos en 3D es esencial para la conducción autónoma, sin embargo, los modelos tradicionales de LiDAR a menudo tienen dificultades con nubes de puntos dispersas. Proponemos una fusión de LiDAR y cámara basada en transformadores jerárquicos conscientes de la perspectiva (PLC-Fusion) para la detección de objetos en 3D para abordar esto. Este marco eficiente de detección de objetos en 3D multimodal integra datos de LiDAR y cámara para mejorar el rendimiento. Primero, nuestro método mejora los datos de LiDAR proyectándolos en un plano 2D, lo que permite la extracción de características de perspectiva de objetos a partir de un mapa de probabilidad a través del módulo de Muestreo de Perspectiva de Objetos (OPS). Incorpora un detector de perspectiva ligero, que consiste en subredes 2D y 3D monoculares interconectadas, para extraer características de imagen y generar propuestas de perspectiva de objetos al predecir y refinar candidatos 3D con las mejores puntuaciones. En segundo lugar, aprovecha dos transformadores independientes: CamViT para características de imagen 2D y LidViT para características de nubes de puntos 3D. Estas representaciones basadas en ViT se fusionan a través del módulo de Fusión Cruzada para el aprendizaje de representaciones jerárquicas y profundas, mejorando el rendimiento y la eficiencia computacional. Estos mecanismos mejoran la utilización de características semánticas en una región de interés (ROI) para obtener características de puntos más representativas, lo que lleva a una fusión más efectiva de la información de ambas fuentes de LiDAR y cámara. PLC-Fusion supera a los métodos existentes, logrando una precisión media promedio (mAP) del 83.52% y 90.37% para la detección en 3D y BEV, respectivamente. Además, PLC-Fusion mantiene un tiempo de inferencia competitivo de 0.18 s. Nuestro modelo aborda los cuellos de botella computacionales al eliminar la necesidad de búsquedas densas en BEV y mecanismos de atención global, mientras mejora el rango y la precisión de detección.