Módulo de fusión de características heterogéneas basado en CNN y Transformer para la reconstrucción estéreo multivista
Autores: Gao, Rui; Xu, Jiajia; Chen, Yipeng; Cho, Kyungeun
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Módulo de fusión de características heterogéneas basado en CNN y Transformer para la reconstrucción estéreo multivista
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Visión por computadora
Estéreo multivista
Reconstrucción 3D
CNN
Transformador
Agregación jerárquica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Durante décadas, un área vital de investigación en visión por computadora ha sido la estereoscopía multivista (MVS), que crea modelos 3D de una escena utilizando fotografías. Este estudio presenta una red MVS efectiva para la reconstrucción 3D utilizando imágenes multivista. Las técnicas alternativas de reconstrucción basadas en el aprendizaje funcionan bien, porque las CNN (redes neuronales convolucionales) solo pueden extraer las características locales de la imagen; sin embargo, contienen muchos artefactos. Aquí, se utiliza un transformador y CNN para extraer las características globales y locales de la imagen, respectivamente. Además, se utilizaron módulos de agregación jerárquica e interacción heterogénea para mejorar estas características. Estos se basan en el transformador y pueden extraer características densas con consistencia 3D y contexto global que son necesarios para proporcionar un emparejamiento preciso para MVS.
Descripción
Durante décadas, un área vital de investigación en visión por computadora ha sido la estereoscopía multivista (MVS), que crea modelos 3D de una escena utilizando fotografías. Este estudio presenta una red MVS efectiva para la reconstrucción 3D utilizando imágenes multivista. Las técnicas alternativas de reconstrucción basadas en el aprendizaje funcionan bien, porque las CNN (redes neuronales convolucionales) solo pueden extraer las características locales de la imagen; sin embargo, contienen muchos artefactos. Aquí, se utiliza un transformador y CNN para extraer las características globales y locales de la imagen, respectivamente. Además, se utilizaron módulos de agregación jerárquica e interacción heterogénea para mejorar estas características. Estos se basan en el transformador y pueden extraer características densas con consistencia 3D y contexto global que son necesarios para proporcionar un emparejamiento preciso para MVS.