Mpvf: algoritmo de detección de objetos 3D multimodal con fusión puntual y por voxel

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mpvf: algoritmo de detección de objetos 3D multimodal con fusión puntual y por voxel

Autores: Shi, Peicheng; Wu, Wenchao; Yang, Aixi

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Mpvf: algoritmo de detección de objetos 3D multimodal con fusión puntual y por voxel

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Detección de objetos

Fusión multimodal

Detección de objetos pequeños

Extracción de características

Detección de objetos 3D

Precisión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones

La detección de objetos en 3D juega un papel fundamental en lograr una percepción ambiental precisa, especialmente en escenarios de tráfico complejos donde los métodos de detección unimodales a menudo no cumplen con los requisitos de precisión. Esto resalta la necesidad de enfoques de fusión multi-modal para mejorar el rendimiento de detección. Sin embargo, los métodos de fusión intermedia cámara-LiDAR existentes sufren de una interacción insuficiente entre características locales y globales y capacidades limitadas de extracción de características detalladas, lo que resulta en una detección inadecuada de objetos pequeños y un rendimiento inestable en escenas complejas. Para abordar estos problemas, se propone el algoritmo de detección de objetos en 3D multi-modal con fusión punto a punto y por voxel (MPVF), que mejora la interacción de características multi-modales y optimiza las estrategias de extracción de características para mejorar la precisión y la robustez de la detección. Primero, se propone el módulo de fusión punto a punto y por voxel (PVWF) para combinar características locales del módulo de fusión punto a punto (PWF) con características globales del módulo de fusión por voxel (VWF), mejorando la interacción entre características a través de modalidades, mejorando las capacidades de detección de objetos pequeños y aumentando el rendimiento del modelo en escenas complejas. En segundo lugar, se desarrolla un módulo de extracción de características expresivas, ResNet-101 mejorado y pirámide de características (IRFP), que comprende los módulos ResNet-101 mejorado (IR) y pirámide de características (FP). El módulo IR utiliza una estrategia de convolución de grupo para inyectar características semánticas de alto nivel en los módulos PWF y VWF, mejorando la eficiencia de extracción. El módulo FP, colocado en una etapa intermedia, captura características detalladas a varias resoluciones, mejorando la precisión y la robustez del modelo. Finalmente, la evaluación en el conjunto de datos KITTI demuestra una Precisión Promedio Media (mAP) del 69.24%, una mejora del 2.75% sobre GraphAlign++. La precisión de detección para automóviles, peatones y ciclistas alcanza el 85.12%, 48.61% y 70.12%, respectivamente, con el método propuesto destacando en la detección de peatones y ciclistas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro