Profundidad Prior-Guiada Fusión de Características de Vóxel 3D para Estimación Semántica 3D a partir de Videos Monoculares

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Profundidad Prior-Guiada Fusión de Características de Vóxel 3D para Estimación Semántica 3D a partir de Videos Monoculares

Autores: Wen, Mingyun; Cho, Kyungeun

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Profundidad Prior-Guiada Fusión de Características de Vóxel 3D para Estimación Semántica 3D a partir de Videos Monoculares

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Redes de aprendizaje profundo

Estimación semántica 3D

Reconstrucción de geometría

Características de imagen

Red transformadora de visión

Reconstrucción de malla 3D

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 55

Citaciones: Sin citaciones

Los métodos existentes de reconstrucción semántica de escenas en 3D utilizan el mismo conjunto de características extraídas de redes de aprendizaje profundo tanto para la estimación semántica en 3D como para la reconstrucción de geometría, ignorando los diferentes requisitos de la segmentación semántica y las tareas de construcción de geometría. Además, los métodos actuales asignan características de imagen 2D a todos los voxels a lo largo de los rayos de la cámara durante el proceso de retroproyección, sin tener en cuenta los voxels vacíos u ocultos. Para abordar estos problemas, proponemos separar las características para la estimación semántica en 3D de las utilizadas para la reconstrucción de mallas en 3D. Utilizamos una red transformadora de visión preentrenada para la extracción de características de imagen y prioridades de profundidad estimadas por una red estéreo multi-vista preentrenada para guiar la asignación de características de imagen dentro de los voxels 3D durante el proceso de retroproyección. Las características de imagen retroproyectadas se agregan dentro de cada voxel 3D mediante promedio, creando características de voxel coherentes. El volumen de características 3D resultante, compuesto por vectores de características de voxel unificados, se introduce en una CNN 3D con una cabeza de clasificación semántica para producir un volumen semántico en 3D. Este volumen se puede combinar con redes de reconstrucción de mallas en 3D existentes para producir una malla semántica en 3D. Los resultados experimentales en conjuntos de datos del mundo real demuestran que el método propuesto aumenta significativamente la precisión de la estimación semántica en 3D.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro