Mejorando la estimación de profundidad monocular con la reconstrucción de imágenes basada en la similitud de parches de imagen perceptual aprendida y las restricciones de diferencia de imagen izquierda-derecha
Autores: Park, Hyeseung; Park, Seungchul
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mejorando la estimación de profundidad monocular con la reconstrucción de imágenes basada en la similitud de parches de imagen perceptual aprendida y las restricciones de diferencia de imagen izquierda-derecha
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Nueva aproximación
Estimación de profundidad monocular auto-supervisada
Reconstrucción de imagen
Evaluación basada en LPIPS
Pérdida de imagen de diferencia izquierda-derecha
Par estéreo de imágenes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
Este documento presenta un enfoque novedoso para la estimación de profundidad monocular auto-supervisada. El modelo se entrena con datos de imágenes estéreo (par izquierda-derecha) e incorpora funciones de pérdida basadas en evaluación de calidad de imagen perceptual cuidadosamente diseñadas para la reconstrucción de imágenes y la diferencia de imagen izquierda-derecha. La fidelidad de las imágenes reconstruidas, obtenidas al deformar las imágenes de entrada utilizando los mapas de disparidad predichos, influye significativamente en la precisión de la estimación de profundidad en redes de profundidad monocular auto-supervisadas. La evaluación propuesta basada en LPIPS (Similaridad de Parches de Imagen Perceptual Aprendida) de la reconstrucción de imágenes emula con precisión los mecanismos perceptuales humanos para cuantificar la calidad de las imágenes reconstruidas, sirviendo como una pérdida de reconstrucción de imagen. En consecuencia, facilita la convergencia gradual de las imágenes reconstruidas hacia una mayor similitud con las imágenes objetivo durante el proceso de entrenamiento. El par de imágenes estéreo a menudo presenta ligeras discrepancias en brillo, contraste, color y ángulo de cámara debido a factores como condiciones de iluminación e inexactitudes en la calibración de la cámara. Estos factores limitan la mejora de la calidad de la reconstrucción de imágenes. Para abordar esto, se introduce la pérdida de diferencia de imagen izquierda-derecha, con el objetivo de alinear las disparidades entre el par de imágenes izquierda-derecha actual y el par de imágenes izquierda-derecha reconstruido. Debido a la tendencia de que los valores de píxeles distantes se aproximen a cero en las imágenes de diferencia derivadas de las imágenes fuente izquierda y derecha de pares estéreo, esta pérdida dirige progresivamente los valores de píxeles distantes de las imágenes de diferencia reconstruidas hacia una convergencia con cero. Por lo tanto, el uso de esta pérdida ha demostrado su eficacia en mitigar distorsiones en regiones distantes mientras mejora el rendimiento general. El objetivo principal de este estudio es introducir y validar la efectividad de la reconstrucción de imágenes basada en LPIPS y las pérdidas de diferencia de imagen izquierda-derecha en el contexto de la estimación de profundidad monocular. Para ello, las funciones de pérdida propuestas se han integrado de manera fluida en un marco de aprendizaje de imágenes estéreo de una sola tarea, incorporando hiperparámetros simples. Notablemente, nuestro enfoque logra resultados superiores en comparación con otros métodos de vanguardia, incluso aquellos que adoptan estrategias de datos híbridos más intrincadas y de aprendizaje multi-tarea.
Descripción
Este documento presenta un enfoque novedoso para la estimación de profundidad monocular auto-supervisada. El modelo se entrena con datos de imágenes estéreo (par izquierda-derecha) e incorpora funciones de pérdida basadas en evaluación de calidad de imagen perceptual cuidadosamente diseñadas para la reconstrucción de imágenes y la diferencia de imagen izquierda-derecha. La fidelidad de las imágenes reconstruidas, obtenidas al deformar las imágenes de entrada utilizando los mapas de disparidad predichos, influye significativamente en la precisión de la estimación de profundidad en redes de profundidad monocular auto-supervisadas. La evaluación propuesta basada en LPIPS (Similaridad de Parches de Imagen Perceptual Aprendida) de la reconstrucción de imágenes emula con precisión los mecanismos perceptuales humanos para cuantificar la calidad de las imágenes reconstruidas, sirviendo como una pérdida de reconstrucción de imagen. En consecuencia, facilita la convergencia gradual de las imágenes reconstruidas hacia una mayor similitud con las imágenes objetivo durante el proceso de entrenamiento. El par de imágenes estéreo a menudo presenta ligeras discrepancias en brillo, contraste, color y ángulo de cámara debido a factores como condiciones de iluminación e inexactitudes en la calibración de la cámara. Estos factores limitan la mejora de la calidad de la reconstrucción de imágenes. Para abordar esto, se introduce la pérdida de diferencia de imagen izquierda-derecha, con el objetivo de alinear las disparidades entre el par de imágenes izquierda-derecha actual y el par de imágenes izquierda-derecha reconstruido. Debido a la tendencia de que los valores de píxeles distantes se aproximen a cero en las imágenes de diferencia derivadas de las imágenes fuente izquierda y derecha de pares estéreo, esta pérdida dirige progresivamente los valores de píxeles distantes de las imágenes de diferencia reconstruidas hacia una convergencia con cero. Por lo tanto, el uso de esta pérdida ha demostrado su eficacia en mitigar distorsiones en regiones distantes mientras mejora el rendimiento general. El objetivo principal de este estudio es introducir y validar la efectividad de la reconstrucción de imágenes basada en LPIPS y las pérdidas de diferencia de imagen izquierda-derecha en el contexto de la estimación de profundidad monocular. Para ello, las funciones de pérdida propuestas se han integrado de manera fluida en un marco de aprendizaje de imágenes estéreo de una sola tarea, incorporando hiperparámetros simples. Notablemente, nuestro enfoque logra resultados superiores en comparación con otros métodos de vanguardia, incluso aquellos que adoptan estrategias de datos híbridos más intrincadas y de aprendizaje multi-tarea.