PidFusion: fusion de puntos densos de LiDAR e imágenes de cámara a nivel de píxel-instancia para detección de objetos 3D
Autores: Zhang, Zheng; Xu, Ruyu; Tian, Qing
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
PidFusion: fusion de puntos densos de LiDAR e imágenes de cámara a nivel de píxel-instancia para detección de objetos 3D
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Sistemas sin conductor
Fusión de datos multimodal
LiDAR
Imágenes de cámara
Detección de objetos 3D
PIDFusion
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
En los sistemas sin conductor (escenarios como metros, autobuses, camiones, etc.), la fusión de datos multimodales, como puntos de detección y rango de luz (LiDAR) e imágenes de cámaras, es esencial para una detección precisa de objetos en 3D. En el proceso de fusión, la interacción de información entre los modos es desafiante debido a los diferentes sistemas de coordenadas de varios sensores y la significativa diferencia en la densidad de los datos recopilados. Es necesario considerar completamente la consistencia y complementariedad de la información multimodal, compensar la brecha entre la densidad de datos de múltiples fuentes y lograr el procesamiento interactivo conjunto de la información de múltiples fuentes. Por lo tanto, este artículo se basa en Transformer para mejorar un nuevo modelo de fusión multimodal llamado PIDFusion para la detección de objetos en 3D. En primer lugar, el método utiliza los resultados de segmentación de instancias en 2D para generar puntos virtuales 3D densos para mejorar las nubes de puntos 3D dispersas originales. Esto optimiza el problema de que la distancia euclidiana más cercana en el espacio de imagen 2D no puede garantizar la cercanía en el espacio 3D. En segundo lugar, se diseña una nueva arquitectura de fusión cruzada para mantener características individuales por modalidad para aprovechar sus características únicas durante la detección de objetos en 3D. Finalmente, se propone un módulo de fusión a nivel de instancia para mejorar la consistencia semántica a través de la interacción de características cruzadas modales. Los experimentos muestran que PIDFusion está muy por delante de los métodos existentes de detección de objetos en 3D, especialmente para objetos pequeños y de largo alcance, con 70.8 mAP y 73.5 NDS en el conjunto de pruebas de nuScenes.
Descripción
En los sistemas sin conductor (escenarios como metros, autobuses, camiones, etc.), la fusión de datos multimodales, como puntos de detección y rango de luz (LiDAR) e imágenes de cámaras, es esencial para una detección precisa de objetos en 3D. En el proceso de fusión, la interacción de información entre los modos es desafiante debido a los diferentes sistemas de coordenadas de varios sensores y la significativa diferencia en la densidad de los datos recopilados. Es necesario considerar completamente la consistencia y complementariedad de la información multimodal, compensar la brecha entre la densidad de datos de múltiples fuentes y lograr el procesamiento interactivo conjunto de la información de múltiples fuentes. Por lo tanto, este artículo se basa en Transformer para mejorar un nuevo modelo de fusión multimodal llamado PIDFusion para la detección de objetos en 3D. En primer lugar, el método utiliza los resultados de segmentación de instancias en 2D para generar puntos virtuales 3D densos para mejorar las nubes de puntos 3D dispersas originales. Esto optimiza el problema de que la distancia euclidiana más cercana en el espacio de imagen 2D no puede garantizar la cercanía en el espacio 3D. En segundo lugar, se diseña una nueva arquitectura de fusión cruzada para mantener características individuales por modalidad para aprovechar sus características únicas durante la detección de objetos en 3D. Finalmente, se propone un módulo de fusión a nivel de instancia para mejorar la consistencia semántica a través de la interacción de características cruzadas modales. Los experimentos muestran que PIDFusion está muy por delante de los métodos existentes de detección de objetos en 3D, especialmente para objetos pequeños y de largo alcance, con 70.8 mAP y 73.5 NDS en el conjunto de pruebas de nuScenes.