Red de percepción de doble flujo mejorada para la estimación de profundidad monocular
Autores: Liu, Zihang; Wang, Quande
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Red de percepción de doble flujo mejorada para la estimación de profundidad monocular
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Estimación de profundidad
Redes Neuronales Convolucionales
Arquitectura codificador-decodificador
ResNet
Swin Transformer
Estimación de profundidad monocular
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 54
Citaciones: Sin citaciones
Estimar la profundidad a partir de una sola imagen RGB tiene una amplia gama de aplicaciones, como la navegación de robots y la conducción autónoma. Actualmente, las Redes Neuronales Convolucionales basadas en arquitectura codificador-decodificador son los métodos más populares para estimar mapas de profundidad. Sin embargo, los operadores convolucionales tienen limitaciones en la modelización de dependencias a gran escala, lo que a menudo conduce a predicciones de profundidad inexactas en los bordes de los objetos. Para abordar estos problemas, se introduce en este documento un nuevo método de estimación de profundidad monocular de doble flujo mejorado en los bordes. ResNet y Swin Transformer se combinan para extraer mejor características globales y locales, lo que beneficia la estimación del mapa de profundidad. Para integrar mejor la información de las dos ramas del codificador y la rama superficial del decodificador, diseñamos un decodificador ligero basado en el Módulo de Atención Cruzada de múltiples cabezas. Además, con el fin de mejorar la claridad de los límites de los objetos en el mapa de profundidad, se presenta una función de pérdida con una penalización adicional por el error de estimación de profundidad en los bordes de los objetos. Los resultados en tres conjuntos de datos, NYU Depth V2, KITTI y SUN RGB-D, muestran que el método presentado en este documento logra un mejor rendimiento para la estimación de profundidad monocular. Además, tiene buenas capacidades de generalización para varios escenarios e imágenes del mundo real.
Descripción
Estimar la profundidad a partir de una sola imagen RGB tiene una amplia gama de aplicaciones, como la navegación de robots y la conducción autónoma. Actualmente, las Redes Neuronales Convolucionales basadas en arquitectura codificador-decodificador son los métodos más populares para estimar mapas de profundidad. Sin embargo, los operadores convolucionales tienen limitaciones en la modelización de dependencias a gran escala, lo que a menudo conduce a predicciones de profundidad inexactas en los bordes de los objetos. Para abordar estos problemas, se introduce en este documento un nuevo método de estimación de profundidad monocular de doble flujo mejorado en los bordes. ResNet y Swin Transformer se combinan para extraer mejor características globales y locales, lo que beneficia la estimación del mapa de profundidad. Para integrar mejor la información de las dos ramas del codificador y la rama superficial del decodificador, diseñamos un decodificador ligero basado en el Módulo de Atención Cruzada de múltiples cabezas. Además, con el fin de mejorar la claridad de los límites de los objetos en el mapa de profundidad, se presenta una función de pérdida con una penalización adicional por el error de estimación de profundidad en los bordes de los objetos. Los resultados en tres conjuntos de datos, NYU Depth V2, KITTI y SUN RGB-D, muestran que el método presentado en este documento logra un mejor rendimiento para la estimación de profundidad monocular. Además, tiene buenas capacidades de generalización para varios escenarios e imágenes del mundo real.