CapGAN: Síntesis de Texto a Imagen Usando Capsule GANs
Autores: Omar, Maryam; Ur Rehman, Hafeez; Samin, Omar Bin; Alazab, Moutaz; Politano, Gianfranco; Benso, Alfredo
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
CapGAN: Síntesis de Texto a Imagen Usando Capsule GANs
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Síntesis de imágenes
Modelado generativo
CapGAN
Texto a imagen
Proceso adversarial
Comprensión de escenas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La síntesis de texto a imagen es uno de los problemas más críticos y desafiantes del modelado generativo. Tiene una importancia sustancial en el área del aprendizaje automático, especialmente para la creación, modificación, análisis y optimización de imágenes. Se han propuesto varios trabajos en el pasado para lograr este objetivo; sin embargo, los métodos actuales aún carecen de comprensión de escenas, especialmente cuando se trata de sintetizar estructuras coherentes en escenas complejas. En este trabajo, proponemos un modelo llamado CapGAN, para sintetizar imágenes a partir de una declaración de texto única dada para resolver el problema de estructuras globales coherentes en escenas complejas. Para este propósito, se utilizan vectores skip-thought para codificar el texto dado en una representación vectorial. Este vector codificado se utiliza como entrada para la síntesis de imágenes mediante un proceso adversarial, en el que se entrenan simultáneamente dos modelos, a saber: generador (G) y discriminador (D). El modelo G genera imágenes falsas, mientras que el modelo D intenta predecir de qué muestra se trata a partir de los datos de entrenamiento en lugar de lo generado por G. La novedad conceptual de este trabajo radica en la integración de cápsulas a nivel del discriminador para hacer que el modelo entienda la relación espacial orientacional y relativa entre diferentes entidades de un objeto en una imagen. La puntuación de inception (IS) junto con la distancia de inception de Fréchet (FID) se utilizan como métricas de evaluación cuantitativa para CapGAN. La IS registrada para las imágenes generadas utilizando CapGAN es 4.05 +/- 0.050, que es aproximadamente un 34% más alta que las imágenes sintetizadas utilizando GANs tradicionales, mientras que la puntuación FID calculada para las imágenes sintetizadas utilizando CapGAN es 44.38, lo que representa casi un 9% de mejora con respecto a los modelos anteriores de última generación. Los resultados experimentales demuestran claramente la efectividad del modelo CapGAN propuesto, que es excepcionalmente competente en la generación de imágenes con escenas complejas.
Descripción
La síntesis de texto a imagen es uno de los problemas más críticos y desafiantes del modelado generativo. Tiene una importancia sustancial en el área del aprendizaje automático, especialmente para la creación, modificación, análisis y optimización de imágenes. Se han propuesto varios trabajos en el pasado para lograr este objetivo; sin embargo, los métodos actuales aún carecen de comprensión de escenas, especialmente cuando se trata de sintetizar estructuras coherentes en escenas complejas. En este trabajo, proponemos un modelo llamado CapGAN, para sintetizar imágenes a partir de una declaración de texto única dada para resolver el problema de estructuras globales coherentes en escenas complejas. Para este propósito, se utilizan vectores skip-thought para codificar el texto dado en una representación vectorial. Este vector codificado se utiliza como entrada para la síntesis de imágenes mediante un proceso adversarial, en el que se entrenan simultáneamente dos modelos, a saber: generador (G) y discriminador (D). El modelo G genera imágenes falsas, mientras que el modelo D intenta predecir de qué muestra se trata a partir de los datos de entrenamiento en lugar de lo generado por G. La novedad conceptual de este trabajo radica en la integración de cápsulas a nivel del discriminador para hacer que el modelo entienda la relación espacial orientacional y relativa entre diferentes entidades de un objeto en una imagen. La puntuación de inception (IS) junto con la distancia de inception de Fréchet (FID) se utilizan como métricas de evaluación cuantitativa para CapGAN. La IS registrada para las imágenes generadas utilizando CapGAN es 4.05 +/- 0.050, que es aproximadamente un 34% más alta que las imágenes sintetizadas utilizando GANs tradicionales, mientras que la puntuación FID calculada para las imágenes sintetizadas utilizando CapGAN es 44.38, lo que representa casi un 9% de mejora con respecto a los modelos anteriores de última generación. Los resultados experimentales demuestran claramente la efectividad del modelo CapGAN propuesto, que es excepcionalmente competente en la generación de imágenes con escenas complejas.