logo móvil
Contáctanos

Red de percepción de doble flujo mejorada para la estimación de profundidad monocular

Autores: Liu, Zihang; Wang, Quande

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Red de percepción de doble flujo mejorada para la estimación de profundidad monocular


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Estimación de profundidad
Redes Neuronales Convolucionales
Arquitectura codificador-decodificador
ResNet
Swin Transformer
Estimación de profundidad monocular

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 54

Citaciones: Sin citaciones


Descripción
Estimar la profundidad a partir de una sola imagen RGB tiene una amplia gama de aplicaciones, como la navegación de robots y la conducción autónoma. Actualmente, las Redes Neuronales Convolucionales basadas en arquitectura codificador-decodificador son los métodos más populares para estimar mapas de profundidad. Sin embargo, los operadores convolucionales tienen limitaciones en la modelización de dependencias a gran escala, lo que a menudo conduce a predicciones de profundidad inexactas en los bordes de los objetos. Para abordar estos problemas, se introduce en este documento un nuevo método de estimación de profundidad monocular de doble flujo mejorado en los bordes. ResNet y Swin Transformer se combinan para extraer mejor características globales y locales, lo que beneficia la estimación del mapa de profundidad. Para integrar mejor la información de las dos ramas del codificador y la rama superficial del decodificador, diseñamos un decodificador ligero basado en el Módulo de Atención Cruzada de múltiples cabezas. Además, con el fin de mejorar la claridad de los límites de los objetos en el mapa de profundidad, se presenta una función de pérdida con una penalización adicional por el error de estimación de profundidad en los bordes de los objetos. Los resultados en tres conjuntos de datos, NYU Depth V2, KITTI y SUN RGB-D, muestran que el método presentado en este documento logra un mejor rendimiento para la estimación de profundidad monocular. Además, tiene buenas capacidades de generalización para varios escenarios e imágenes del mundo real.

Otros recursos que podrían interesarte

Temas Virtualpro