Detección de objetos en nube de puntos basada en fusión de características a múltiples escalas utilizando la nube de puntos original y proyección
Autores: Zhang, Zhikang; Zhu, Zhongjie; Bai, Yongqiang; Jin, Yiwen; Wang, Ming
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Detección de objetos en nube de puntos basada en fusión de características a múltiples escalas utilizando la nube de puntos original y proyección
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Nube de puntos
Algoritmos de detección de objetos
Fusión de características a múltiples escalas
Transformador 3D Swin
Extracción de características
Tecnología de proyección
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
Los algoritmos existentes de detección de objetos en nubes de puntos luchan por capturar de manera efectiva las características espaciales en diferentes escalas, lo que a menudo resulta en respuestas inadecuadas a los cambios en el tamaño del objeto y capacidades limitadas de extracción de características, afectando así la precisión de la detección. Para resolver este problema, presentamos un método de detección de objetos en nubes de puntos basado en la fusión de características multi-escala de la nube de puntos original y la proyección, que tiene como objetivo mejorar el rendimiento multi-escala y la completitud de la extracción de características en la detección de objetos en nubes de puntos. Primero, diseñamos un módulo de extracción de características en 3D basado en el Transformador Swin 3D. Este módulo preprocesa la nube de puntos utilizando un enfoque de Partición de Parches en 3D y emplea un mecanismo de autoatención dentro de una ventana deslizante en 3D, junto con una estrategia de submuestreo, para extraer características de manera efectiva en diferentes escalas. Al mismo tiempo, convertimos la nube de puntos en 3D a una imagen 2D utilizando tecnología de proyección y extraemos características 2D utilizando el Transformador Swin. Luego, se construye un módulo de fusión de características 2D/3D para integrar características 2D y 3D a nivel de canal a través de la adición punto a punto y la concatenación de vectores para mejorar la completitud de las características. Finalmente, los mapas de características integradas se alimentan en la cabeza de detección para facilitar la detección eficiente de objetos. Los resultados experimentales muestran que nuestro método ha mejorado la precisión promedio de la detección de vehículos en un 1.01% en el conjunto de datos KITTI en tres niveles de dificultad en comparación con Voxel-RCNN. Además, los análisis de visualización muestran que nuestro algoritmo propuesto también exhibe un rendimiento superior en la detección de objetos.
Descripción
Los algoritmos existentes de detección de objetos en nubes de puntos luchan por capturar de manera efectiva las características espaciales en diferentes escalas, lo que a menudo resulta en respuestas inadecuadas a los cambios en el tamaño del objeto y capacidades limitadas de extracción de características, afectando así la precisión de la detección. Para resolver este problema, presentamos un método de detección de objetos en nubes de puntos basado en la fusión de características multi-escala de la nube de puntos original y la proyección, que tiene como objetivo mejorar el rendimiento multi-escala y la completitud de la extracción de características en la detección de objetos en nubes de puntos. Primero, diseñamos un módulo de extracción de características en 3D basado en el Transformador Swin 3D. Este módulo preprocesa la nube de puntos utilizando un enfoque de Partición de Parches en 3D y emplea un mecanismo de autoatención dentro de una ventana deslizante en 3D, junto con una estrategia de submuestreo, para extraer características de manera efectiva en diferentes escalas. Al mismo tiempo, convertimos la nube de puntos en 3D a una imagen 2D utilizando tecnología de proyección y extraemos características 2D utilizando el Transformador Swin. Luego, se construye un módulo de fusión de características 2D/3D para integrar características 2D y 3D a nivel de canal a través de la adición punto a punto y la concatenación de vectores para mejorar la completitud de las características. Finalmente, los mapas de características integradas se alimentan en la cabeza de detección para facilitar la detección eficiente de objetos. Los resultados experimentales muestran que nuestro método ha mejorado la precisión promedio de la detección de vehículos en un 1.01% en el conjunto de datos KITTI en tres niveles de dificultad en comparación con Voxel-RCNN. Además, los análisis de visualización muestran que nuestro algoritmo propuesto también exhibe un rendimiento superior en la detección de objetos.