Redes adversarias generativas condicionales para la predicción de mapas de profundidad de imágenes monoculares
Autores: Hao, Shengang; Zhang, Li; Qiu, Kefan; Zhang, Zheng
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Redes adversarias generativas condicionales para la predicción de mapas de profundidad de imágenes monoculares
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Predicción de mapas profundos
Estructura tridimensional
Robots móviles
Obstáculos
Algoritmos de estimación de profundidad
Redes generativas adversarias
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
La predicción de mapas profundos juega un papel crucial en la comprensión de la estructura tridimensional de una escena, lo cual es esencial para permitir que los robots móviles naveguen de forma autónoma y eviten obstáculos en entornos complejos. Sin embargo, la mayoría de los algoritmos existentes de estimación de profundidad basados en redes neuronales profundas dependen en gran medida de conjuntos de datos específicos, lo que resulta en una resistencia pobre a la interferencia del modelo. Para abordar este problema, este documento propone e implementa un algoritmo optimizado de estimación de profundidad de imagen monocular basado en redes generativas adversariales condicionales. El objetivo es superar las limitaciones de la diversidad insuficiente de datos de entrenamiento y los contornos de estimación de profundidad excesivamente borrosos en los algoritmos actuales de estimación de profundidad de imagen monocular basados en redes generativas adversariales. El algoritmo propuesto emplea un modelo mejorado de red generativa adversarial condicional con un generador que adopta una estructura de red similar a UNet y un módulo de aumento de características novedoso. El discriminador utiliza un discriminador condicional de patchGAN de múltiples capas e incorpora el mapa de profundidad original como entrada para utilizar efectivamente el conocimiento previo. La función de pérdida combina la función de pérdida de mínimos cuadrados y la función de pérdida L1. En comparación con los algoritmos tradicionales de estimación de profundidad, el algoritmo de optimización propuesto puede restaurar de manera efectiva la información del contorno de la imagen y mejorar la capacidad de visualización de los mapas de predicción de profundidad. Los resultados experimentales demuestran que nuestro método puede acelerar la convergencia del modelo en los conjuntos de datos NYU-V2 y Make3D, y generar mapas de profundidad predichos que contienen más detalles y contornos de objetos más claros.
Descripción
La predicción de mapas profundos juega un papel crucial en la comprensión de la estructura tridimensional de una escena, lo cual es esencial para permitir que los robots móviles naveguen de forma autónoma y eviten obstáculos en entornos complejos. Sin embargo, la mayoría de los algoritmos existentes de estimación de profundidad basados en redes neuronales profundas dependen en gran medida de conjuntos de datos específicos, lo que resulta en una resistencia pobre a la interferencia del modelo. Para abordar este problema, este documento propone e implementa un algoritmo optimizado de estimación de profundidad de imagen monocular basado en redes generativas adversariales condicionales. El objetivo es superar las limitaciones de la diversidad insuficiente de datos de entrenamiento y los contornos de estimación de profundidad excesivamente borrosos en los algoritmos actuales de estimación de profundidad de imagen monocular basados en redes generativas adversariales. El algoritmo propuesto emplea un modelo mejorado de red generativa adversarial condicional con un generador que adopta una estructura de red similar a UNet y un módulo de aumento de características novedoso. El discriminador utiliza un discriminador condicional de patchGAN de múltiples capas e incorpora el mapa de profundidad original como entrada para utilizar efectivamente el conocimiento previo. La función de pérdida combina la función de pérdida de mínimos cuadrados y la función de pérdida L1. En comparación con los algoritmos tradicionales de estimación de profundidad, el algoritmo de optimización propuesto puede restaurar de manera efectiva la información del contorno de la imagen y mejorar la capacidad de visualización de los mapas de predicción de profundidad. Los resultados experimentales demuestran que nuestro método puede acelerar la convergencia del modelo en los conjuntos de datos NYU-V2 y Make3D, y generar mapas de profundidad predichos que contienen más detalles y contornos de objetos más claros.