logo móvil
Contáctanos

Mpvf: algoritmo de detección de objetos 3D multimodal con fusión puntual y por voxel

Autores: Shi, Peicheng; Wu, Wenchao; Yang, Aixi

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Mpvf: algoritmo de detección de objetos 3D multimodal con fusión puntual y por voxel


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Detección de objetos
Fusión multimodal
Detección de objetos pequeños
Extracción de características
Detección de objetos 3D
Precisión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
La detección de objetos en 3D juega un papel fundamental en lograr una percepción ambiental precisa, especialmente en escenarios de tráfico complejos donde los métodos de detección unimodales a menudo no cumplen con los requisitos de precisión. Esto resalta la necesidad de enfoques de fusión multi-modal para mejorar el rendimiento de detección. Sin embargo, los métodos de fusión intermedia cámara-LiDAR existentes sufren de una interacción insuficiente entre características locales y globales y capacidades limitadas de extracción de características detalladas, lo que resulta en una detección inadecuada de objetos pequeños y un rendimiento inestable en escenas complejas. Para abordar estos problemas, se propone el algoritmo de detección de objetos en 3D multi-modal con fusión punto a punto y por voxel (MPVF), que mejora la interacción de características multi-modales y optimiza las estrategias de extracción de características para mejorar la precisión y la robustez de la detección. Primero, se propone el módulo de fusión punto a punto y por voxel (PVWF) para combinar características locales del módulo de fusión punto a punto (PWF) con características globales del módulo de fusión por voxel (VWF), mejorando la interacción entre características a través de modalidades, mejorando las capacidades de detección de objetos pequeños y aumentando el rendimiento del modelo en escenas complejas. En segundo lugar, se desarrolla un módulo de extracción de características expresivas, ResNet-101 mejorado y pirámide de características (IRFP), que comprende los módulos ResNet-101 mejorado (IR) y pirámide de características (FP). El módulo IR utiliza una estrategia de convolución de grupo para inyectar características semánticas de alto nivel en los módulos PWF y VWF, mejorando la eficiencia de extracción. El módulo FP, colocado en una etapa intermedia, captura características detalladas a varias resoluciones, mejorando la precisión y la robustez del modelo. Finalmente, la evaluación en el conjunto de datos KITTI demuestra una Precisión Promedio Media (mAP) del 69.24%, una mejora del 2.75% sobre GraphAlign++. La precisión de detección para automóviles, peatones y ciclistas alcanza el 85.12%, 48.61% y 70.12%, respectivamente, con el método propuesto destacando en la detección de peatones y ciclistas.

Otros recursos que podrían interesarte

Temas Virtualpro