logo móvil
Contáctanos

Artfusion: un marco de síntesis de estilo basado en un modelo de difusión para retratos

Autores: Yang, Hyemin; Yang, Heekyung; Min, Kyungha

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Artfusion: un marco de síntesis de estilo basado en un modelo de difusión para retratos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelo de difusión
Codificador CLIP
Conjunto de datos de entrenamiento
Estilo artístico
Fotografía de retrato
Información de estilo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones


Descripción
Presentamos un enfoque basado en un modelo de difusión que aplica el estilo artístico de un artista o un movimiento artístico a una fotografía de retrato. Aprender el estilo de las obras de un artista o un movimiento artístico requiere un conjunto de datos de entrenamiento compuesto por muchas muestras. Resolvemos esta limitación combinando el codificador de Preentrenamiento de Imagen de Lenguaje Contrastivo (CLIP) y el modelo de difusión, ya que el codificador CLIP extrae las características de una entrada de retrato de una manera muy efectiva. Nuestro marco incluye tres codificadores CLIP independientes que extraen las características de texto, color y bordes Canny de una entrada de retrato, respectivamente. Estas características se incorporan a la información de estilo extraída a través de un modelo de difusión para completar la estilización en un retrato de entrada. El modelo de difusión extrae la información de estilo de las imágenes de muestra en el conjunto de datos de entrenamiento utilizando un codificador de imagen. Los pasos de eliminación de ruido en el modelo de difusión aplican la información de estilo del conjunto de datos de entrenamiento a las características basadas en CLIP de una entrada de retrato. Finalmente, nuestro marco produce un retrato artístico que presenta tanto la identidad del retrato de entrada como el estilo artístico del conjunto de datos de entrenamiento. La contribución más importante de nuestro marco es que requiere menos de cien imágenes de muestra para un estilo artístico. Por lo tanto, nuestro marco puede extraer con éxito estilos de un artista que ha dibujado menos de cien obras de arte. Muestreamos tres artistas y tres movimientos artísticos y aplicamos estos estilos a los retratos de diversas identidades y producimos resultados visualmente agradables. Evaluamos nuestros resultados utilizando varias métricas, incluyendo Distancia de Incepción de Frechet (FID), ArtFID y Evaluador de Calidad de Lenguaje-Imagen (LIQE) para demostrar la excelencia de nuestros resultados.

Otros recursos que podrían interesarte

Temas Virtualpro