Edrnet: enrutamiento dinámico adaptativo mejorado para la completitud de profundidad
Autores: Sun, Fuyun; Li, Baoquan; Zhang, Qiaomei
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Edrnet: enrutamiento dinámico adaptativo mejorado para la completitud de profundidad
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Completitud de profundidad
Aprendizaje profundo
Red de completitud de profundidad adaptativa enrutada dinámicamente mejorada en los bordes
Operador Canny
Bloque transformador de enrutamiento dinámico adaptativo disperso
Bordes de objetos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
La completitud de la profundidad es una técnica para densificar los mapas de profundidad dispersos adquiridos por sensores de profundidad (por ejemplo, cámaras RGB-D, LiDAR) para generar mapas de profundidad completos y precisos. Esta técnica tiene un importante valor de aplicación en la conducción autónoma, la navegación de robots y la realidad virtual. Actualmente, el aprendizaje profundo se ha convertido en un método principal para la completitud de la profundidad. Por lo tanto, proponemos una red de completitud de profundidad adaptativa enrutada dinámicamente y mejorada con bordes, EDRNet, para lograr una completitud de profundidad eficiente y precisa a través de un diseño ligero y optimización de bordes. En primer lugar, introducimos el operador Canny (una técnica clásica de procesamiento de imágenes) para extraer y fusionar explícitamente la información del contorno del objeto y fusionar los mapas de bordes adquiridos con imágenes RGB y mapas de profundidad dispersos para proporcionar a la red información clara de estructura de bordes. En segundo lugar, diseñamos un bloque Transformador de Enrutamiento Dinámico Adaptativo y Disperso llamado SADRT, que puede combinar eficazmente la capacidad de modelado global del Transformador y la capacidad de extracción de características locales de la CNN. El mecanismo de enrutamiento dinámico introducido en este bloque puede seleccionar dinámicamente regiones clave para una extracción eficiente de características, y la cantidad de cálculos redundantes se reduce significativamente en comparación con el Transformador tradicional. Además, diseñamos una función de pérdida con penalizaciones adicionales para el error de profundidad de los bordes del objeto, lo que refuerza aún más las restricciones en los bordes. Los resultados experimentales demuestran que el método presentado en este documento logra mejoras significativas en el rendimiento en los conjuntos de datos públicos KITTI DC y NYU Depth v2, especialmente en la precisión de predicción de profundidad en la región de bordes y la eficiencia computacional.
Descripción
La completitud de la profundidad es una técnica para densificar los mapas de profundidad dispersos adquiridos por sensores de profundidad (por ejemplo, cámaras RGB-D, LiDAR) para generar mapas de profundidad completos y precisos. Esta técnica tiene un importante valor de aplicación en la conducción autónoma, la navegación de robots y la realidad virtual. Actualmente, el aprendizaje profundo se ha convertido en un método principal para la completitud de la profundidad. Por lo tanto, proponemos una red de completitud de profundidad adaptativa enrutada dinámicamente y mejorada con bordes, EDRNet, para lograr una completitud de profundidad eficiente y precisa a través de un diseño ligero y optimización de bordes. En primer lugar, introducimos el operador Canny (una técnica clásica de procesamiento de imágenes) para extraer y fusionar explícitamente la información del contorno del objeto y fusionar los mapas de bordes adquiridos con imágenes RGB y mapas de profundidad dispersos para proporcionar a la red información clara de estructura de bordes. En segundo lugar, diseñamos un bloque Transformador de Enrutamiento Dinámico Adaptativo y Disperso llamado SADRT, que puede combinar eficazmente la capacidad de modelado global del Transformador y la capacidad de extracción de características locales de la CNN. El mecanismo de enrutamiento dinámico introducido en este bloque puede seleccionar dinámicamente regiones clave para una extracción eficiente de características, y la cantidad de cálculos redundantes se reduce significativamente en comparación con el Transformador tradicional. Además, diseñamos una función de pérdida con penalizaciones adicionales para el error de profundidad de los bordes del objeto, lo que refuerza aún más las restricciones en los bordes. Los resultados experimentales demuestran que el método presentado en este documento logra mejoras significativas en el rendimiento en los conjuntos de datos públicos KITTI DC y NYU Depth v2, especialmente en la precisión de predicción de profundidad en la región de bordes y la eficiencia computacional.