Sobre la estimación de profundidad monocular consciente de segmentos utilizando transformadores de visión

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Sobre la estimación de profundidad monocular consciente de segmentos utilizando transformadores de visión

Autores: Arampatzakis, Vasileios; Pavlidis, George; Mitianoudis, Nikolaos; Papamarkos, Nikos

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Sobre la estimación de profundidad monocular consciente de segmentos utilizando transformadores de visión

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Estimación de profundidad monocular

Segmentación semántica

Transformador de visión

Estrategias de fusión

Modelos globales de MDE

Modelado consciente del segmento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La estimación de profundidad monocular (MDE) infiere la geometría de la escena por píxeles a partir de una única imagen RGB. A pesar de los avances recientes, los modelos globales de MDE a menudo difuminan las discontinuidades de profundidad en los límites de los objetos y no logran capturar la estructura a nivel de objeto. La estimación de profundidad consciente de segmentos aborda esta limitación al explotar la segmentación semántica para descomponer la predicción de profundidad en subproblemas más simples y específicos de cada clase. En este trabajo, estudiamos la MDE consciente de semántica en un diseño de múltiples ramas donde cada clase semántica es manejada por una rama ligera de Vision Transformer (ViT) que predice profundidad densa para su clase mientras suprime la interferencia de otras regiones. Además, examinamos estrategias de fusión que combinan las salidas de las ramas en una única predicción: (i) un módulo de fusión de atención cruzada aprendible que predice la profundidad a partir de la pila de propuestas y máscaras por clase, y (ii) una suma cosida sin parámetros que suma las salidas enmascaradas. La arquitectura propuesta es simple, escalable, entrenable de extremo a extremo y compatible con cualquier backbone de transformador. Los experimentos en Virtual KITTI 2, donde están disponibles la profundidad de verdad y las etiquetas semánticas, muestran que el modelado consciente de segmentos produce límites de profundidad más nítidos y mejora las métricas de error estándar en comparación con una línea base de rama única (AbsRel 0.2430.152; RMSE 11.9529.101). Finalmente, encontramos que la suma sin parámetros iguala, y en la mayoría de los casos mejora, la precisión de la fusión aprendida mientras no añade sobrecarga computacional.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro