logo móvil
Contáctanos

Sobre la estimación de profundidad monocular consciente de segmentos utilizando transformadores de visión

Autores: Arampatzakis, Vasileios; Pavlidis, George; Mitianoudis, Nikolaos; Papamarkos, Nikos

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Sobre la estimación de profundidad monocular consciente de segmentos utilizando transformadores de visión


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Estimación de profundidad monocular
Segmentación semántica
Transformador de visión
Estrategias de fusión
Modelos globales de MDE
Modelado consciente del segmento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La estimación de profundidad monocular (MDE) infiere la geometría de la escena por píxeles a partir de una única imagen RGB. A pesar de los avances recientes, los modelos globales de MDE a menudo difuminan las discontinuidades de profundidad en los límites de los objetos y no logran capturar la estructura a nivel de objeto. La estimación de profundidad consciente de segmentos aborda esta limitación al explotar la segmentación semántica para descomponer la predicción de profundidad en subproblemas más simples y específicos de cada clase. En este trabajo, estudiamos la MDE consciente de semántica en un diseño de múltiples ramas donde cada clase semántica es manejada por una rama ligera de Vision Transformer (ViT) que predice profundidad densa para su clase mientras suprime la interferencia de otras regiones. Además, examinamos estrategias de fusión que combinan las salidas de las ramas en una única predicción: (i) un módulo de fusión de atención cruzada aprendible que predice la profundidad a partir de la pila de propuestas y máscaras por clase, y (ii) una suma cosida sin parámetros que suma las salidas enmascaradas. La arquitectura propuesta es simple, escalable, entrenable de extremo a extremo y compatible con cualquier backbone de transformador. Los experimentos en Virtual KITTI 2, donde están disponibles la profundidad de verdad y las etiquetas semánticas, muestran que el modelado consciente de segmentos produce límites de profundidad más nítidos y mejora las métricas de error estándar en comparación con una línea base de rama única (AbsRel 0.2430.152; RMSE 11.9529.101). Finalmente, encontramos que la suma sin parámetros iguala, y en la mayoría de los casos mejora, la precisión de la fusión aprendida mientras no añade sobrecarga computacional.

Otros recursos que podrían interesarte

Temas Virtualpro