logo móvil
Contáctanos

Profundidad Prior-Guiada Fusión de Características de Vóxel 3D para Estimación Semántica 3D a partir de Videos Monoculares

Autores: Wen, Mingyun; Cho, Kyungeun

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Profundidad Prior-Guiada Fusión de Características de Vóxel 3D para Estimación Semántica 3D a partir de Videos Monoculares


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Redes de aprendizaje profundo
Estimación semántica 3D
Reconstrucción de geometría
Características de imagen
Red transformadora de visión
Reconstrucción de malla 3D

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 55

Citaciones: Sin citaciones


Descripción
Los métodos existentes de reconstrucción semántica de escenas en 3D utilizan el mismo conjunto de características extraídas de redes de aprendizaje profundo tanto para la estimación semántica en 3D como para la reconstrucción de geometría, ignorando los diferentes requisitos de la segmentación semántica y las tareas de construcción de geometría. Además, los métodos actuales asignan características de imagen 2D a todos los voxels a lo largo de los rayos de la cámara durante el proceso de retroproyección, sin tener en cuenta los voxels vacíos u ocultos. Para abordar estos problemas, proponemos separar las características para la estimación semántica en 3D de las utilizadas para la reconstrucción de mallas en 3D. Utilizamos una red transformadora de visión preentrenada para la extracción de características de imagen y prioridades de profundidad estimadas por una red estéreo multi-vista preentrenada para guiar la asignación de características de imagen dentro de los voxels 3D durante el proceso de retroproyección. Las características de imagen retroproyectadas se agregan dentro de cada voxel 3D mediante promedio, creando características de voxel coherentes. El volumen de características 3D resultante, compuesto por vectores de características de voxel unificados, se introduce en una CNN 3D con una cabeza de clasificación semántica para producir un volumen semántico en 3D. Este volumen se puede combinar con redes de reconstrucción de mallas en 3D existentes para producir una malla semántica en 3D. Los resultados experimentales en conjuntos de datos del mundo real demuestran que el método propuesto aumenta significativamente la precisión de la estimación semántica en 3D.

Otros recursos que podrían interesarte

Temas Virtualpro