Sobre la estimación de profundidad monocular consciente de segmentos utilizando transformadores de visión
Autores: Arampatzakis, Vasileios; Pavlidis, George; Mitianoudis, Nikolaos; Papamarkos, Nikos
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Sobre la estimación de profundidad monocular consciente de segmentos utilizando transformadores de visión
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Estimación de profundidad monocular
Segmentación semántica
Transformador de visión
Estrategias de fusión
Modelos globales de MDE
Modelado consciente del segmento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La estimación de profundidad monocular (MDE) infiere la geometría de la escena por píxeles a partir de una única imagen RGB. A pesar de los avances recientes, los modelos globales de MDE a menudo difuminan las discontinuidades de profundidad en los límites de los objetos y no logran capturar la estructura a nivel de objeto. La estimación de profundidad consciente de segmentos aborda esta limitación al explotar la segmentación semántica para descomponer la predicción de profundidad en subproblemas más simples y específicos de cada clase. En este trabajo, estudiamos la MDE consciente de semántica en un diseño de múltiples ramas donde cada clase semántica es manejada por una rama ligera de Vision Transformer (ViT) que predice profundidad densa para su clase mientras suprime la interferencia de otras regiones. Además, examinamos estrategias de fusión que combinan las salidas de las ramas en una única predicción: (i) un módulo de fusión de atención cruzada aprendible que predice la profundidad a partir de la pila de propuestas y máscaras por clase, y (ii) una suma cosida sin parámetros que suma las salidas enmascaradas. La arquitectura propuesta es simple, escalable, entrenable de extremo a extremo y compatible con cualquier backbone de transformador. Los experimentos en Virtual KITTI 2, donde están disponibles la profundidad de verdad y las etiquetas semánticas, muestran que el modelado consciente de segmentos produce límites de profundidad más nítidos y mejora las métricas de error estándar en comparación con una línea base de rama única (AbsRel 0.2430.152; RMSE 11.9529.101). Finalmente, encontramos que la suma sin parámetros iguala, y en la mayoría de los casos mejora, la precisión de la fusión aprendida mientras no añade sobrecarga computacional.
Descripción
La estimación de profundidad monocular (MDE) infiere la geometría de la escena por píxeles a partir de una única imagen RGB. A pesar de los avances recientes, los modelos globales de MDE a menudo difuminan las discontinuidades de profundidad en los límites de los objetos y no logran capturar la estructura a nivel de objeto. La estimación de profundidad consciente de segmentos aborda esta limitación al explotar la segmentación semántica para descomponer la predicción de profundidad en subproblemas más simples y específicos de cada clase. En este trabajo, estudiamos la MDE consciente de semántica en un diseño de múltiples ramas donde cada clase semántica es manejada por una rama ligera de Vision Transformer (ViT) que predice profundidad densa para su clase mientras suprime la interferencia de otras regiones. Además, examinamos estrategias de fusión que combinan las salidas de las ramas en una única predicción: (i) un módulo de fusión de atención cruzada aprendible que predice la profundidad a partir de la pila de propuestas y máscaras por clase, y (ii) una suma cosida sin parámetros que suma las salidas enmascaradas. La arquitectura propuesta es simple, escalable, entrenable de extremo a extremo y compatible con cualquier backbone de transformador. Los experimentos en Virtual KITTI 2, donde están disponibles la profundidad de verdad y las etiquetas semánticas, muestran que el modelado consciente de segmentos produce límites de profundidad más nítidos y mejora las métricas de error estándar en comparación con una línea base de rama única (AbsRel 0.2430.152; RMSE 11.9529.101). Finalmente, encontramos que la suma sin parámetros iguala, y en la mayoría de los casos mejora, la precisión de la fusión aprendida mientras no añade sobrecarga computacional.