Generación de imagen realista a partir de texto mediante incrustación basada en BERT

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Generación de imagen realista a partir de texto mediante incrustación basada en BERT

Autores: Na, Sanghyuck; Do, Mirae; Yu, Kyeonah; Kim, Juntae

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Generación de imagen realista a partir de texto mediante incrustación basada en BERT

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Inteligencia artificial

Aprendizaje multimodal

Generación de texto a imagen

Red generativa adversaria

BERT

Procesamiento del lenguaje natural

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 44

Citaciones: Sin citaciones

Recientemente, en el campo de la inteligencia artificial, el aprendizaje multimodal ha recibido mucha atención debido a las expectativas de mejora del rendimiento de la IA y las posibles aplicaciones. La generación de texto a imagen, que es una de las tareas multimodales, es un tema desafiante en visión por computadora y procesamiento de lenguaje natural. El modelo de generación de texto a imagen basado en redes generativas adversarias (GAN) utiliza un codificador de texto pre-entrenado con pares de imagen-texto. Sin embargo, los codificadores de texto pre-entrenados con pares de imagen-texto no pueden obtener información rica sobre textos no vistos durante el pre-entrenamiento, por lo que es difícil generar una imagen que coincida semánticamente con una descripción de texto dada. En este documento, proponemos un nuevo modelo de generación de texto a imagen utilizando BERT pre-entrenado, que se utiliza ampliamente en el campo del procesamiento de lenguaje natural. El BERT pre-entrenado se utiliza como codificador de texto realizando un ajuste fino con una gran cantidad de texto, de modo que se obtiene información rica sobre el texto y, por lo tanto, es adecuado para la tarea de generación de imágenes. A través de experimentos utilizando un conjunto de datos de referencia multimodal, mostramos que el método propuesto mejora el rendimiento sobre el modelo base tanto cuantitativa como cualitativamente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro