Red generativa adversaria para superar la oclusión en imágenes: una encuesta
Autores: Saleh, Kaziwa; Szénási, Sándor; Vámossy, Zoltán
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Red generativa adversaria para superar la oclusión en imágenes: una encuesta
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Sistemas de visión por computadora
Oclusión
Percepción amodal
Red generativa adversaria
GAN
Tareas de manejo de oclusión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Aunque los sistemas actuales de visión por computadora están más cerca de la inteligencia humana en lo que respecta a comprender el mundo visible que antes, su rendimiento se ve obstaculizado cuando los objetos están parcialmente ocultos. Dado que vivimos en un entorno dinámico y complejo, encontramos más objetos ocultos que completamente visibles. Por lo tanto, inculcar la capacidad de percepción amodal en esos sistemas de visión es crucial. Sin embargo, superar la occlusión es difícil y conlleva sus propios desafíos. El generative adversarial network (GAN), por otro lado, es conocido por su poder generativo en la producción de datos a partir de una distribución de ruido aleatorio que se acerca a las muestras que provienen de distribuciones de datos reales. En esta encuesta, delineamos los trabajos existentes en los que se utiliza GAN para abordar los desafíos de superar la occlusión, a saber, la segmentación amodal, la completación de contenido amodal, la recuperación de órdenes y la adquisición de datos de entrenamiento. Proporcionamos un resumen del tipo de GAN, la función de pérdida, el conjunto de datos y los resultados de cada trabajo. Presentamos una visión general de las arquitecturas de GAN implementadas en diversas aplicaciones de completación amodal. También discutimos las funciones objetivo comunes que se aplican en el entrenamiento de GAN para tareas de manejo de la occlusión. Por último, discutimos varios problemas abiertos y posibles direcciones futuras.
Descripción
Aunque los sistemas actuales de visión por computadora están más cerca de la inteligencia humana en lo que respecta a comprender el mundo visible que antes, su rendimiento se ve obstaculizado cuando los objetos están parcialmente ocultos. Dado que vivimos en un entorno dinámico y complejo, encontramos más objetos ocultos que completamente visibles. Por lo tanto, inculcar la capacidad de percepción amodal en esos sistemas de visión es crucial. Sin embargo, superar la occlusión es difícil y conlleva sus propios desafíos. El generative adversarial network (GAN), por otro lado, es conocido por su poder generativo en la producción de datos a partir de una distribución de ruido aleatorio que se acerca a las muestras que provienen de distribuciones de datos reales. En esta encuesta, delineamos los trabajos existentes en los que se utiliza GAN para abordar los desafíos de superar la occlusión, a saber, la segmentación amodal, la completación de contenido amodal, la recuperación de órdenes y la adquisición de datos de entrenamiento. Proporcionamos un resumen del tipo de GAN, la función de pérdida, el conjunto de datos y los resultados de cada trabajo. Presentamos una visión general de las arquitecturas de GAN implementadas en diversas aplicaciones de completación amodal. También discutimos las funciones objetivo comunes que se aplican en el entrenamiento de GAN para tareas de manejo de la occlusión. Por último, discutimos varios problemas abiertos y posibles direcciones futuras.