BiDFNet: Una Red de Fusión de Características Bidireccional para la Detección de Objetos 3D Basada en Pseudo-LiDAR
Autores: Zhu, Qiang; Wan, Yaping
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
BiDFNet: Una Red de Fusión de Características Bidireccional para la Detección de Objetos 3D Basada en Pseudo-LiDAR
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Red de fusión de características
Detección de objetos 3D
Nubes de puntos pseudo
Detección 3D multimodal
Fusión bidireccional
Fusión de características basada en atención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento presenta una red de fusión de características bidireccional (BiDFNet) para la detección de objetos en 3D, aprovechando nubes de puntos pseudo para lograr una fusión bidireccional de características de nubes de puntos e imágenes. El modelo propuesto aborda desafíos clave en la detección 3D multimodal al introducir tres componentes novedosos: (1) el módulo SAF-Conv, que extiende el campo receptivo a través de una convolución dispersa de submanifold mejorada, mejorando la extracción de características de nubes de puntos pseudo mientras reduce efectivamente el ruido en los bordes; (2) el módulo de interacción de características de atención cruzada bidireccional (BiCSAFIM), que emplea un mecanismo de atención cruzada de múltiples cabezas para permitir la interacción de información global entre características de nubes de puntos e imágenes; y (3) el módulo de fusión de características basado en atención (ADFM), que fusiona de manera adaptativa características de doble flujo para mejorar la robustez. Experimentos extensivos en el conjunto de datos KITTI demuestran que BiDFNet logra un rendimiento de vanguardia, con un AP 3D (R40) del 88.79% en el conjunto de validación y del 85.27% en el conjunto de prueba para la categoría de coches, superando significativamente los métodos existentes. Estos resultados destacan la efectividad de BiDFNet en escenarios complejos, mostrando su potencial para aplicaciones del mundo real como la conducción autónoma.
Descripción
Este documento presenta una red de fusión de características bidireccional (BiDFNet) para la detección de objetos en 3D, aprovechando nubes de puntos pseudo para lograr una fusión bidireccional de características de nubes de puntos e imágenes. El modelo propuesto aborda desafíos clave en la detección 3D multimodal al introducir tres componentes novedosos: (1) el módulo SAF-Conv, que extiende el campo receptivo a través de una convolución dispersa de submanifold mejorada, mejorando la extracción de características de nubes de puntos pseudo mientras reduce efectivamente el ruido en los bordes; (2) el módulo de interacción de características de atención cruzada bidireccional (BiCSAFIM), que emplea un mecanismo de atención cruzada de múltiples cabezas para permitir la interacción de información global entre características de nubes de puntos e imágenes; y (3) el módulo de fusión de características basado en atención (ADFM), que fusiona de manera adaptativa características de doble flujo para mejorar la robustez. Experimentos extensivos en el conjunto de datos KITTI demuestran que BiDFNet logra un rendimiento de vanguardia, con un AP 3D (R40) del 88.79% en el conjunto de validación y del 85.27% en el conjunto de prueba para la categoría de coches, superando significativamente los métodos existentes. Estos resultados destacan la efectividad de BiDFNet en escenarios complejos, mostrando su potencial para aplicaciones del mundo real como la conducción autónoma.