logo móvil
Contáctanos

Un estudio sobre la generación de webtoons utilizando modelos CLIP y de difusión

Autores: Yu, Kyungho; Kim, Hyoungju; Kim, Jeongin; Chun, Chanjun; Kim, Pankoo

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un estudio sobre la generación de webtoons utilizando modelos CLIP y de difusión


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje profundo
Creadores de webtoon
Modelo CLIP
Datos multimodales
Modelo de difusión
Transformación de texto a imagen

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones


Descripción
Este estudio se enfoca en aprovechar las técnicas de transformación de texto a imagen basadas en aprendizaje profundo para ayudar a los creadores de webtoon en sus producciones creativas. Convertimos conjuntos de datos disponibles públicamente (por ejemplo, MSCOCO) en un conjunto de datos multimodal de webtoon utilizando CartoonGAN. Primero, el conjunto de datos se utilizó para entrenar el pre-entrenamiento de imagen de lenguaje contrastivo (CLIP), un modelo compuesto por BERT multilingüe y un Vision Transformer que aprendió a asociar texto con imágenes. En segundo lugar, se empleó un modelo de difusión pre-entrenado para generar webtoons a través de texto e imágenes similares al texto de entrada. El conjunto de datos de webtoon estaba compuesto por descripciones (es decir, descripciones textuales) emparejadas con sus ilustraciones de webtoon correspondientes. CLIP (operando a través del aprendizaje contrastivo) extrajo características de diferentes modalidades de datos y alineó datos similares de manera más cercana dentro del mismo espacio de características mientras alejaba los datos disímiles. Este modelo aprendió las relaciones entre varias modalidades en datos multimodales. Para generar webtoons utilizando el modelo de difusión, el proceso implicaba proporcionar las características de CLIP del texto deseado del webtoon con las de la imagen más similar al texto a un modelo de difusión pre-entrenado. Se realizaron experimentos utilizando tanto entradas de texto único como continuo para generar webtoons. En los experimentos, se utilizaron tanto entradas de texto único como continuo para generar webtoons, y los resultados mostraron un puntaje de inicio de 7.14 al usar entradas de texto continuo. La tecnología de texto a imagen desarrollada aquí podría agilizar el proceso de creación de webtoon para los artistas al permitir la generación eficiente de webtoons basados en el texto proporcionado. Sin embargo, se señaló la actual incapacidad para generar webtoons a partir de múltiples oraciones o imágenes manteniendo un estilo artístico consistente. Por lo tanto, es imperativo realizar más investigaciones para desarrollar un modelo de texto a imagen capaz de manejar entradas multi-oracionales y multilingües garantizando coherencia en el estilo artístico a través de las imágenes de webtoon generadas.

Otros recursos que podrían interesarte

Temas Virtualpro