Mpvf: algoritmo de detección de objetos 3D multimodal con fusión puntual y por voxel
Autores: Shi, Peicheng; Wu, Wenchao; Yang, Aixi
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Mpvf: algoritmo de detección de objetos 3D multimodal con fusión puntual y por voxel
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Detección de objetos
Fusión multimodal
Detección de objetos pequeños
Extracción de características
Detección de objetos 3D
Precisión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
La detección de objetos en 3D juega un papel fundamental en lograr una percepción ambiental precisa, especialmente en escenarios de tráfico complejos donde los métodos de detección unimodales a menudo no cumplen con los requisitos de precisión. Esto resalta la necesidad de enfoques de fusión multi-modal para mejorar el rendimiento de detección. Sin embargo, los métodos de fusión intermedia cámara-LiDAR existentes sufren de una interacción insuficiente entre características locales y globales y capacidades limitadas de extracción de características detalladas, lo que resulta en una detección inadecuada de objetos pequeños y un rendimiento inestable en escenas complejas. Para abordar estos problemas, se propone el algoritmo de detección de objetos en 3D multi-modal con fusión punto a punto y por voxel (MPVF), que mejora la interacción de características multi-modales y optimiza las estrategias de extracción de características para mejorar la precisión y la robustez de la detección. Primero, se propone el módulo de fusión punto a punto y por voxel (PVWF) para combinar características locales del módulo de fusión punto a punto (PWF) con características globales del módulo de fusión por voxel (VWF), mejorando la interacción entre características a través de modalidades, mejorando las capacidades de detección de objetos pequeños y aumentando el rendimiento del modelo en escenas complejas. En segundo lugar, se desarrolla un módulo de extracción de características expresivas, ResNet-101 mejorado y pirámide de características (IRFP), que comprende los módulos ResNet-101 mejorado (IR) y pirámide de características (FP). El módulo IR utiliza una estrategia de convolución de grupo para inyectar características semánticas de alto nivel en los módulos PWF y VWF, mejorando la eficiencia de extracción. El módulo FP, colocado en una etapa intermedia, captura características detalladas a varias resoluciones, mejorando la precisión y la robustez del modelo. Finalmente, la evaluación en el conjunto de datos KITTI demuestra una Precisión Promedio Media (mAP) del 69.24%, una mejora del 2.75% sobre GraphAlign++. La precisión de detección para automóviles, peatones y ciclistas alcanza el 85.12%, 48.61% y 70.12%, respectivamente, con el método propuesto destacando en la detección de peatones y ciclistas.
Descripción
La detección de objetos en 3D juega un papel fundamental en lograr una percepción ambiental precisa, especialmente en escenarios de tráfico complejos donde los métodos de detección unimodales a menudo no cumplen con los requisitos de precisión. Esto resalta la necesidad de enfoques de fusión multi-modal para mejorar el rendimiento de detección. Sin embargo, los métodos de fusión intermedia cámara-LiDAR existentes sufren de una interacción insuficiente entre características locales y globales y capacidades limitadas de extracción de características detalladas, lo que resulta en una detección inadecuada de objetos pequeños y un rendimiento inestable en escenas complejas. Para abordar estos problemas, se propone el algoritmo de detección de objetos en 3D multi-modal con fusión punto a punto y por voxel (MPVF), que mejora la interacción de características multi-modales y optimiza las estrategias de extracción de características para mejorar la precisión y la robustez de la detección. Primero, se propone el módulo de fusión punto a punto y por voxel (PVWF) para combinar características locales del módulo de fusión punto a punto (PWF) con características globales del módulo de fusión por voxel (VWF), mejorando la interacción entre características a través de modalidades, mejorando las capacidades de detección de objetos pequeños y aumentando el rendimiento del modelo en escenas complejas. En segundo lugar, se desarrolla un módulo de extracción de características expresivas, ResNet-101 mejorado y pirámide de características (IRFP), que comprende los módulos ResNet-101 mejorado (IR) y pirámide de características (FP). El módulo IR utiliza una estrategia de convolución de grupo para inyectar características semánticas de alto nivel en los módulos PWF y VWF, mejorando la eficiencia de extracción. El módulo FP, colocado en una etapa intermedia, captura características detalladas a varias resoluciones, mejorando la precisión y la robustez del modelo. Finalmente, la evaluación en el conjunto de datos KITTI demuestra una Precisión Promedio Media (mAP) del 69.24%, una mejora del 2.75% sobre GraphAlign++. La precisión de detección para automóviles, peatones y ciclistas alcanza el 85.12%, 48.61% y 70.12%, respectivamente, con el método propuesto destacando en la detección de peatones y ciclistas.