Red de estéreo multi-vista basada en mecanismo de atención y renderizado de volumen neuronal
Autores: Zhu, Daixian; Kong, Haoran; Qiu, Qiang; Ruan, Xiaoman; Liu, Shulin
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Red de estéreo multi-vista basada en mecanismo de atención y renderizado de volumen neuronal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Presencia
Coincidencia de características
Mecanismo de atención
Renderizado de volumen neuronal
Volumen de coste
Reconstrucción de escena
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 44
Citaciones: Sin citaciones
Debido a la presencia de regiones con texturas débiles o superficies no lambertianas, el emparejamiento de características en algoritmos de Estéreo Multi-Vista (MVS) basados en aprendizaje a menudo conduce a coincidencias incorrectas, lo que resulta en la construcción de un volumen de costos defectuoso y una reconstrucción de escena incompleta. En respuesta a esta limitación, este documento presenta la red MVS basada en mecanismo de atención y renderizado de volumen neural. En primer lugar, empleamos un módulo de extracción de características a múltiples escalas basado en convolución dilatada y mecanismo de atención. Este módulo permite que la red modele con precisión las dependencias entre píxeles, centrándose en información crucial para un emparejamiento de características robusto. En segundo lugar, para mitigar el impacto del volumen de costos defectuoso, establecemos una red de renderizado de volumen neural basada en características semánticas de múltiples vistas y volumen de codificación neural. Al introducir la pérdida de vista de referencia de renderizado, inferimos escenas geométricas en 3D, lo que permite que la red aprenda información de geometría de escena más allá de la representación del volumen de costos. Además, aplicamos la pérdida de consistencia de profundidad para mantener la consistencia geométrica entre redes. Los resultados experimentales indican que en el conjunto de datos DTU, en comparación con el método CasMVSNet, la completitud de las reconstrucciones mejoró en un 23,1%, y el resultado general aumentó en un 7,3%. En el subconjunto intermedio del conjunto de datos Tanks and Temples, el puntaje F promedio para las reconstrucciones es de 58,00, lo que supera a otras redes, demostrando un rendimiento de reconstrucción superior y una fuerte capacidad de generalización.
Descripción
Debido a la presencia de regiones con texturas débiles o superficies no lambertianas, el emparejamiento de características en algoritmos de Estéreo Multi-Vista (MVS) basados en aprendizaje a menudo conduce a coincidencias incorrectas, lo que resulta en la construcción de un volumen de costos defectuoso y una reconstrucción de escena incompleta. En respuesta a esta limitación, este documento presenta la red MVS basada en mecanismo de atención y renderizado de volumen neural. En primer lugar, empleamos un módulo de extracción de características a múltiples escalas basado en convolución dilatada y mecanismo de atención. Este módulo permite que la red modele con precisión las dependencias entre píxeles, centrándose en información crucial para un emparejamiento de características robusto. En segundo lugar, para mitigar el impacto del volumen de costos defectuoso, establecemos una red de renderizado de volumen neural basada en características semánticas de múltiples vistas y volumen de codificación neural. Al introducir la pérdida de vista de referencia de renderizado, inferimos escenas geométricas en 3D, lo que permite que la red aprenda información de geometría de escena más allá de la representación del volumen de costos. Además, aplicamos la pérdida de consistencia de profundidad para mantener la consistencia geométrica entre redes. Los resultados experimentales indican que en el conjunto de datos DTU, en comparación con el método CasMVSNet, la completitud de las reconstrucciones mejoró en un 23,1%, y el resultado general aumentó en un 7,3%. En el subconjunto intermedio del conjunto de datos Tanks and Temples, el puntaje F promedio para las reconstrucciones es de 58,00, lo que supera a otras redes, demostrando un rendimiento de reconstrucción superior y una fuerte capacidad de generalización.