Red de Detección de Objetos Tridimensionales Basada en Fusión Multi-Capa y Multi-Modal
Autores: Zhu, Wenming; Zhou, Jia; Wang, Zizhe; Zhou, Xuehua; Zhou, Feng; Sun, Jingwen; Song, Mingrui; Zhou, Zhiguo
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Red de Detección de Objetos Tridimensionales Basada en Fusión Multi-Capa y Multi-Modal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Cámaras
LiDAR
Sistemas de conducción autónoma
Método de fusión
Red de detección de objetos 3D
Fusión multimodal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
Las cámaras y LiDAR son sensores importantes en sistemas de conducción autónoma que pueden proporcionar información complementaria entre sí. Sin embargo, la mayoría de los métodos solo de LiDAR superan al método de fusión en los principales conjuntos de datos de referencia. Los estudios actuales atribuyen las razones de esto al desalineamiento de vistas y a la dificultad para emparejar características heterogéneas. Especialmente, al utilizar el método de fusión de una sola etapa, es difícil fusionar completamente las características de la imagen y la nube de puntos. En este trabajo, proponemos una red de detección de objetos 3D basada en el método de fusión multi-capa y multi-modal (3DMMF). 3DMMF funciona pintando y codificando la nube de puntos en el frustum propuesto por la red de detección de objetos 2D. Luego, la nube de puntos pintada se alimenta a la red de detección de objetos solo de LiDAR, que tiene canales expandidos y un módulo de mecanismo de autoatención. Finalmente, se utiliza el método de fusión de candidatos de objetos de cámara-LiDAR para la detección de objetos 3D (CLOCs) para emparejar las características de dirección geométrica y las características semánticas de categoría de los resultados de detección 2D y 3D. Los experimentos en el conjunto de datos KITTI (un conjunto de datos público) muestran que este método de fusión tiene una mejora significativa sobre la línea base del método solo de LiDAR, con una mejora promedio de mAP del 6.3%.
Descripción
Las cámaras y LiDAR son sensores importantes en sistemas de conducción autónoma que pueden proporcionar información complementaria entre sí. Sin embargo, la mayoría de los métodos solo de LiDAR superan al método de fusión en los principales conjuntos de datos de referencia. Los estudios actuales atribuyen las razones de esto al desalineamiento de vistas y a la dificultad para emparejar características heterogéneas. Especialmente, al utilizar el método de fusión de una sola etapa, es difícil fusionar completamente las características de la imagen y la nube de puntos. En este trabajo, proponemos una red de detección de objetos 3D basada en el método de fusión multi-capa y multi-modal (3DMMF). 3DMMF funciona pintando y codificando la nube de puntos en el frustum propuesto por la red de detección de objetos 2D. Luego, la nube de puntos pintada se alimenta a la red de detección de objetos solo de LiDAR, que tiene canales expandidos y un módulo de mecanismo de autoatención. Finalmente, se utiliza el método de fusión de candidatos de objetos de cámara-LiDAR para la detección de objetos 3D (CLOCs) para emparejar las características de dirección geométrica y las características semánticas de categoría de los resultados de detección 2D y 3D. Los experimentos en el conjunto de datos KITTI (un conjunto de datos público) muestran que este método de fusión tiene una mejora significativa sobre la línea base del método solo de LiDAR, con una mejora promedio de mAP del 6.3%.