Artfusion: un marco de síntesis de estilo basado en un modelo de difusión para retratos
Autores: Yang, Hyemin; Yang, Heekyung; Min, Kyungha
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Artfusion: un marco de síntesis de estilo basado en un modelo de difusión para retratos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Modelo de difusión
Codificador CLIP
Conjunto de datos de entrenamiento
Estilo artístico
Fotografía de retrato
Información de estilo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
Presentamos un enfoque basado en un modelo de difusión que aplica el estilo artístico de un artista o un movimiento artístico a una fotografía de retrato. Aprender el estilo de las obras de un artista o un movimiento artístico requiere un conjunto de datos de entrenamiento compuesto por muchas muestras. Resolvemos esta limitación combinando el codificador de Preentrenamiento de Imagen de Lenguaje Contrastivo (CLIP) y el modelo de difusión, ya que el codificador CLIP extrae las características de una entrada de retrato de una manera muy efectiva. Nuestro marco incluye tres codificadores CLIP independientes que extraen las características de texto, color y bordes Canny de una entrada de retrato, respectivamente. Estas características se incorporan a la información de estilo extraída a través de un modelo de difusión para completar la estilización en un retrato de entrada. El modelo de difusión extrae la información de estilo de las imágenes de muestra en el conjunto de datos de entrenamiento utilizando un codificador de imagen. Los pasos de eliminación de ruido en el modelo de difusión aplican la información de estilo del conjunto de datos de entrenamiento a las características basadas en CLIP de una entrada de retrato. Finalmente, nuestro marco produce un retrato artístico que presenta tanto la identidad del retrato de entrada como el estilo artístico del conjunto de datos de entrenamiento. La contribución más importante de nuestro marco es que requiere menos de cien imágenes de muestra para un estilo artístico. Por lo tanto, nuestro marco puede extraer con éxito estilos de un artista que ha dibujado menos de cien obras de arte. Muestreamos tres artistas y tres movimientos artísticos y aplicamos estos estilos a los retratos de diversas identidades y producimos resultados visualmente agradables. Evaluamos nuestros resultados utilizando varias métricas, incluyendo Distancia de Incepción de Frechet (FID), ArtFID y Evaluador de Calidad de Lenguaje-Imagen (LIQE) para demostrar la excelencia de nuestros resultados.
Descripción
Presentamos un enfoque basado en un modelo de difusión que aplica el estilo artístico de un artista o un movimiento artístico a una fotografía de retrato. Aprender el estilo de las obras de un artista o un movimiento artístico requiere un conjunto de datos de entrenamiento compuesto por muchas muestras. Resolvemos esta limitación combinando el codificador de Preentrenamiento de Imagen de Lenguaje Contrastivo (CLIP) y el modelo de difusión, ya que el codificador CLIP extrae las características de una entrada de retrato de una manera muy efectiva. Nuestro marco incluye tres codificadores CLIP independientes que extraen las características de texto, color y bordes Canny de una entrada de retrato, respectivamente. Estas características se incorporan a la información de estilo extraída a través de un modelo de difusión para completar la estilización en un retrato de entrada. El modelo de difusión extrae la información de estilo de las imágenes de muestra en el conjunto de datos de entrenamiento utilizando un codificador de imagen. Los pasos de eliminación de ruido en el modelo de difusión aplican la información de estilo del conjunto de datos de entrenamiento a las características basadas en CLIP de una entrada de retrato. Finalmente, nuestro marco produce un retrato artístico que presenta tanto la identidad del retrato de entrada como el estilo artístico del conjunto de datos de entrenamiento. La contribución más importante de nuestro marco es que requiere menos de cien imágenes de muestra para un estilo artístico. Por lo tanto, nuestro marco puede extraer con éxito estilos de un artista que ha dibujado menos de cien obras de arte. Muestreamos tres artistas y tres movimientos artísticos y aplicamos estos estilos a los retratos de diversas identidades y producimos resultados visualmente agradables. Evaluamos nuestros resultados utilizando varias métricas, incluyendo Distancia de Incepción de Frechet (FID), ArtFID y Evaluador de Calidad de Lenguaje-Imagen (LIQE) para demostrar la excelencia de nuestros resultados.