TSPconv-Net: Transformer y convolución dispersa para la segmentación de instancias en 3D en nubes de puntos
Autores: Ning, Xiaojuan; Liu, Yule; Ma, Yishu; Lu, Zhiwei; Jin, Haiyan; Shi, Zhenghao; Wang, Yinghui
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
TSPconv-Net: Transformer y convolución dispersa para la segmentación de instancias en 3D en nubes de puntos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje profundo
Segmentación de instancias 3D
TSPconv-Net
MLPs
Extracción de características
Mecanismo OA
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
Los enfoques actuales de aprendizaje profundo para la segmentación de instancias 3D en interiores a menudo se basan en perceptrones multicapa (MLPs) para la extracción de características. Sin embargo, los MLPs tienen dificultades para capturar de manera efectiva las complejas relaciones espaciales inherentes en los datos de escenas 3D. Para abordar este problema, proponemos un marco novedoso y eficiente para la segmentación de instancias 3D llamado TSPconv-Net. A diferencia de los métodos existentes que dependen principalmente de MLPs para la extracción de características, nuestro marco integra un modelo de extracción de características más robusto que comprende el mecanismo de atención de desplazamiento (OA) y la convolución dispersa de submanifold (SSC). El marco propuesto es una arquitectura de red de extremo a extremo. TSPconv-Net consta de una red principal seguida de un módulo de caja delimitadora. Específicamente, la red principal utiliza el mecanismo OA para extraer características globales y emplea SSC para la extracción de características locales. El módulo de caja delimitadora luego realiza la segmentación de instancias basada en las características extraídas. Los resultados experimentales demuestran que nuestro enfoque supera el trabajo existente en el conjunto de datos S3DIS manteniendo la eficiencia computacional. TSPconv-Net logra un 68.6% de mPrec, 52.5% de mRec y 60.1% de mAP en el conjunto de pruebas, superando a 3D-BoNet en un 3.0% de mPrec, 5.4% de mRec y 2.6% de mAP. Además, demuestra una alta eficiencia, completando los cálculos en solo 326 s.
Descripción
Los enfoques actuales de aprendizaje profundo para la segmentación de instancias 3D en interiores a menudo se basan en perceptrones multicapa (MLPs) para la extracción de características. Sin embargo, los MLPs tienen dificultades para capturar de manera efectiva las complejas relaciones espaciales inherentes en los datos de escenas 3D. Para abordar este problema, proponemos un marco novedoso y eficiente para la segmentación de instancias 3D llamado TSPconv-Net. A diferencia de los métodos existentes que dependen principalmente de MLPs para la extracción de características, nuestro marco integra un modelo de extracción de características más robusto que comprende el mecanismo de atención de desplazamiento (OA) y la convolución dispersa de submanifold (SSC). El marco propuesto es una arquitectura de red de extremo a extremo. TSPconv-Net consta de una red principal seguida de un módulo de caja delimitadora. Específicamente, la red principal utiliza el mecanismo OA para extraer características globales y emplea SSC para la extracción de características locales. El módulo de caja delimitadora luego realiza la segmentación de instancias basada en las características extraídas. Los resultados experimentales demuestran que nuestro enfoque supera el trabajo existente en el conjunto de datos S3DIS manteniendo la eficiencia computacional. TSPconv-Net logra un 68.6% de mPrec, 52.5% de mRec y 60.1% de mAP en el conjunto de pruebas, superando a 3D-BoNet en un 3.0% de mPrec, 5.4% de mRec y 2.6% de mAP. Además, demuestra una alta eficiencia, completando los cálculos en solo 326 s.