Generación de imagen realista a partir de texto mediante incrustación basada en BERT
Autores: Na, Sanghyuck; Do, Mirae; Yu, Kyeonah; Kim, Juntae
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Generación de imagen realista a partir de texto mediante incrustación basada en BERT
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Inteligencia artificial
Aprendizaje multimodal
Generación de texto a imagen
Red generativa adversaria
BERT
Procesamiento del lenguaje natural
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 44
Citaciones: Sin citaciones
Recientemente, en el campo de la inteligencia artificial, el aprendizaje multimodal ha recibido mucha atención debido a las expectativas de mejora del rendimiento de la IA y las posibles aplicaciones. La generación de texto a imagen, que es una de las tareas multimodales, es un tema desafiante en visión por computadora y procesamiento de lenguaje natural. El modelo de generación de texto a imagen basado en redes generativas adversarias (GAN) utiliza un codificador de texto pre-entrenado con pares de imagen-texto. Sin embargo, los codificadores de texto pre-entrenados con pares de imagen-texto no pueden obtener información rica sobre textos no vistos durante el pre-entrenamiento, por lo que es difícil generar una imagen que coincida semánticamente con una descripción de texto dada. En este documento, proponemos un nuevo modelo de generación de texto a imagen utilizando BERT pre-entrenado, que se utiliza ampliamente en el campo del procesamiento de lenguaje natural. El BERT pre-entrenado se utiliza como codificador de texto realizando un ajuste fino con una gran cantidad de texto, de modo que se obtiene información rica sobre el texto y, por lo tanto, es adecuado para la tarea de generación de imágenes. A través de experimentos utilizando un conjunto de datos de referencia multimodal, mostramos que el método propuesto mejora el rendimiento sobre el modelo base tanto cuantitativa como cualitativamente.
Descripción
Recientemente, en el campo de la inteligencia artificial, el aprendizaje multimodal ha recibido mucha atención debido a las expectativas de mejora del rendimiento de la IA y las posibles aplicaciones. La generación de texto a imagen, que es una de las tareas multimodales, es un tema desafiante en visión por computadora y procesamiento de lenguaje natural. El modelo de generación de texto a imagen basado en redes generativas adversarias (GAN) utiliza un codificador de texto pre-entrenado con pares de imagen-texto. Sin embargo, los codificadores de texto pre-entrenados con pares de imagen-texto no pueden obtener información rica sobre textos no vistos durante el pre-entrenamiento, por lo que es difícil generar una imagen que coincida semánticamente con una descripción de texto dada. En este documento, proponemos un nuevo modelo de generación de texto a imagen utilizando BERT pre-entrenado, que se utiliza ampliamente en el campo del procesamiento de lenguaje natural. El BERT pre-entrenado se utiliza como codificador de texto realizando un ajuste fino con una gran cantidad de texto, de modo que se obtiene información rica sobre el texto y, por lo tanto, es adecuado para la tarea de generación de imágenes. A través de experimentos utilizando un conjunto de datos de referencia multimodal, mostramos que el método propuesto mejora el rendimiento sobre el modelo base tanto cuantitativa como cualitativamente.