logo móvil
Contáctanos

CapGAN: Síntesis de Texto a Imagen Usando Capsule GANs

Autores: Omar, Maryam; Ur Rehman, Hafeez; Samin, Omar Bin; Alazab, Moutaz; Politano, Gianfranco; Benso, Alfredo

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

CapGAN: Síntesis de Texto a Imagen Usando Capsule GANs


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Síntesis de imágenes
Modelado generativo
CapGAN
Texto a imagen
Proceso adversarial
Comprensión de escenas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La síntesis de texto a imagen es uno de los problemas más críticos y desafiantes del modelado generativo. Tiene una importancia sustancial en el área del aprendizaje automático, especialmente para la creación, modificación, análisis y optimización de imágenes. Se han propuesto varios trabajos en el pasado para lograr este objetivo; sin embargo, los métodos actuales aún carecen de comprensión de escenas, especialmente cuando se trata de sintetizar estructuras coherentes en escenas complejas. En este trabajo, proponemos un modelo llamado CapGAN, para sintetizar imágenes a partir de una declaración de texto única dada para resolver el problema de estructuras globales coherentes en escenas complejas. Para este propósito, se utilizan vectores skip-thought para codificar el texto dado en una representación vectorial. Este vector codificado se utiliza como entrada para la síntesis de imágenes mediante un proceso adversarial, en el que se entrenan simultáneamente dos modelos, a saber: generador (G) y discriminador (D). El modelo G genera imágenes falsas, mientras que el modelo D intenta predecir de qué muestra se trata a partir de los datos de entrenamiento en lugar de lo generado por G. La novedad conceptual de este trabajo radica en la integración de cápsulas a nivel del discriminador para hacer que el modelo entienda la relación espacial orientacional y relativa entre diferentes entidades de un objeto en una imagen. La puntuación de inception (IS) junto con la distancia de inception de Fréchet (FID) se utilizan como métricas de evaluación cuantitativa para CapGAN. La IS registrada para las imágenes generadas utilizando CapGAN es 4.05 +/- 0.050, que es aproximadamente un 34% más alta que las imágenes sintetizadas utilizando GANs tradicionales, mientras que la puntuación FID calculada para las imágenes sintetizadas utilizando CapGAN es 44.38, lo que representa casi un 9% de mejora con respecto a los modelos anteriores de última generación. Los resultados experimentales demuestran claramente la efectividad del modelo CapGAN propuesto, que es excepcionalmente competente en la generación de imágenes con escenas complejas.

Otros recursos que podrían interesarte

Temas Virtualpro