PLC-Fusion: Fusión Jerárquica y Profunda de Cámaras LiDAR Basada en Perspectivas para la Detección de Objetos 3D en Vehículos Autónomos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

PLC-Fusion: Fusión Jerárquica y Profunda de Cámaras LiDAR Basada en Perspectivas para la Detección de Objetos 3D en Vehículos Autónomos

Autores: Mushtaq, Husnain; Deng, Xiaoheng; Azhar, Fizza; Ali, Mubashir; Raza Sherazi, Hafiz Husnain

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

PLC-Fusion: Fusión Jerárquica y Profunda de Cámaras LiDAR Basada en Perspectivas para la Detección de Objetos 3D en Vehículos Autónomos

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Detección de objetos

Fusión de LiDAR y cámara

Consciente de la perspectiva

Transformador de visión jerárquico

Rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La detección precisa de objetos en 3D es esencial para la conducción autónoma, sin embargo, los modelos tradicionales de LiDAR a menudo tienen dificultades con nubes de puntos dispersas. Proponemos una fusión de LiDAR y cámara basada en transformadores jerárquicos conscientes de la perspectiva (PLC-Fusion) para la detección de objetos en 3D para abordar esto. Este marco eficiente de detección de objetos en 3D multimodal integra datos de LiDAR y cámara para mejorar el rendimiento. Primero, nuestro método mejora los datos de LiDAR proyectándolos en un plano 2D, lo que permite la extracción de características de perspectiva de objetos a partir de un mapa de probabilidad a través del módulo de Muestreo de Perspectiva de Objetos (OPS). Incorpora un detector de perspectiva ligero, que consiste en subredes 2D y 3D monoculares interconectadas, para extraer características de imagen y generar propuestas de perspectiva de objetos al predecir y refinar candidatos 3D con las mejores puntuaciones. En segundo lugar, aprovecha dos transformadores independientes: CamViT para características de imagen 2D y LidViT para características de nubes de puntos 3D. Estas representaciones basadas en ViT se fusionan a través del módulo de Fusión Cruzada para el aprendizaje de representaciones jerárquicas y profundas, mejorando el rendimiento y la eficiencia computacional. Estos mecanismos mejoran la utilización de características semánticas en una región de interés (ROI) para obtener características de puntos más representativas, lo que lleva a una fusión más efectiva de la información de ambas fuentes de LiDAR y cámara. PLC-Fusion supera a los métodos existentes, logrando una precisión media promedio (mAP) del 83.52% y 90.37% para la detección en 3D y BEV, respectivamente. Además, PLC-Fusion mantiene un tiempo de inferencia competitivo de 0.18 s. Nuestro modelo aborda los cuellos de botella computacionales al eliminar la necesidad de búsquedas densas en BEV y mecanismos de atención global, mientras mejora el rango y la precisión de detección.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro