Red de pirámide multinivel para la estimación de profundidad monocular basada en el refinamiento de características y la fusión adaptativa
Autores: Xu, Huihui; Li, Fei
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Red de pirámide multinivel para la estimación de profundidad monocular basada en el refinamiento de características y la fusión adaptativa
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Visión por computadora
Estimación de profundidad monocular
Red neuronal convolucional
Mapa de profundidad
Aprendizaje profundo
Refinamiento de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Como tarea tradicional de visión por computadora, la estimación de profundidad monocular juega un papel esencial en la reconstrucción 3D de vista novedosa y la realidad aumentada. Los modelos basados en redes neuronales convolucionales (CNN) han logrado un buen rendimiento para esta tarea. Sin embargo, en el mapa de profundidad recuperado por algunos métodos existentes basados en aprendizaje profundo, todavía se pierden detalles locales. Para generar mapas de profundidad convincentes con ricos detalles locales, este estudio propone una red piramidal multilevel eficiente para la estimación de profundidad monocular basada en el refinamiento de características y la fusión adaptativa. Específicamente, se desarrolla un esquema de generación de características espaciales multilevel para extraer características ricas de la rama espacial. Luego, se diseña un módulo de refinamiento de características que combina y mejora esta información contextual y espacial multilevel para derivar información detallada. Además, diseñamos un bloque de fusión adaptativa para mejorar la capacidad de las características totalmente conectadas. Los resultados de evaluación de rendimiento en conjuntos de datos públicos RGBD indican que el enfoque propuesto puede recuperar salidas de profundidad razonables con mejores detalles y superar varios algoritmos de recuperación de profundidad desde una perspectiva cualitativa y cuantitativa.
Descripción
Como tarea tradicional de visión por computadora, la estimación de profundidad monocular juega un papel esencial en la reconstrucción 3D de vista novedosa y la realidad aumentada. Los modelos basados en redes neuronales convolucionales (CNN) han logrado un buen rendimiento para esta tarea. Sin embargo, en el mapa de profundidad recuperado por algunos métodos existentes basados en aprendizaje profundo, todavía se pierden detalles locales. Para generar mapas de profundidad convincentes con ricos detalles locales, este estudio propone una red piramidal multilevel eficiente para la estimación de profundidad monocular basada en el refinamiento de características y la fusión adaptativa. Específicamente, se desarrolla un esquema de generación de características espaciales multilevel para extraer características ricas de la rama espacial. Luego, se diseña un módulo de refinamiento de características que combina y mejora esta información contextual y espacial multilevel para derivar información detallada. Además, diseñamos un bloque de fusión adaptativa para mejorar la capacidad de las características totalmente conectadas. Los resultados de evaluación de rendimiento en conjuntos de datos públicos RGBD indican que el enfoque propuesto puede recuperar salidas de profundidad razonables con mejores detalles y superar varios algoritmos de recuperación de profundidad desde una perspectiva cualitativa y cuantitativa.