Un autoencoder basado en Transformer Composicional para la transferencia de estilo de imagen
Autores: Feng, Jianxin; Zhang, Geng; Li, Xinhui; Ding, Yuanming; Liu, Zhiguo; Pan, Chengsheng; Deng, Siyuan; Fang, Hui
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un autoencoder basado en Transformer Composicional para la transferencia de estilo de imagen
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Transferencia de estilo de imagen
Mecanismo de atención
Autoencoder basado en transformador composicional
Transferencia de estilo de imagen de alta resolución
Términos de consistencia basados en regiones
Pérdida de divergencia de Kullback-Leibler
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
La transferencia de estilo de imagen se ha convertido en una técnica clave en las aplicaciones modernas de edición de fotos. Aunque se ha logrado un progreso significativo para mezclar contenido de una imagen con estilo de otra imagen, la imagen sintetizada puede tener un efecto alucinatorio cuando la textura de la imagen de estilo es rica al procesar tareas de transferencia de estilo de imagen de alta resolución. En este documento, proponemos un mecanismo de atención novedoso, llamado atención composicional, para diseñar un autoencoder basado en transformador composicional (CTA) para resolver el problema mencionado anteriormente. Con el apoyo de este módulo, nuestro modelo es capaz de generar imágenes de alta calidad al transferir desde imágenes de estilo ricas en textura a imágenes de contenido con semántica. Además, incrustamos términos de consistencia basados en regiones en nuestra función de pérdida para garantizar la preservación semántica de la estructura interna en nuestra imagen sintetizada. Además, se discute el CTA basado en teoría de la información y se introduce la pérdida de divergencia de Kullback-Leibler para preservar más información de brillo para la transferencia de estilo fotorrealista. Los extensos resultados experimentales basados en tres conjuntos de datos de referencia, a saber, Iglesias, Paisajes de Flickr y Rostros de Alta Calidad de Flickr, confirmaron un excelente rendimiento en comparación con varios métodos de vanguardia. Basándonos en una evaluación de estudio de usuarios, la mayoría de los usuarios, que oscilaban entre el 61% y el 66%, otorgaron altas puntuaciones a los efectos de transferencia de nuestro método en comparación con el 9% de los usuarios que apoyaron el segundo mejor método. Además, para las preguntas sobre realismo y calidad de transferencia de estilo, obtuvimos la mejor puntuación, es decir, un promedio de 4.5 sobre 5 en comparación con otros métodos de transferencia de estilo.
Descripción
La transferencia de estilo de imagen se ha convertido en una técnica clave en las aplicaciones modernas de edición de fotos. Aunque se ha logrado un progreso significativo para mezclar contenido de una imagen con estilo de otra imagen, la imagen sintetizada puede tener un efecto alucinatorio cuando la textura de la imagen de estilo es rica al procesar tareas de transferencia de estilo de imagen de alta resolución. En este documento, proponemos un mecanismo de atención novedoso, llamado atención composicional, para diseñar un autoencoder basado en transformador composicional (CTA) para resolver el problema mencionado anteriormente. Con el apoyo de este módulo, nuestro modelo es capaz de generar imágenes de alta calidad al transferir desde imágenes de estilo ricas en textura a imágenes de contenido con semántica. Además, incrustamos términos de consistencia basados en regiones en nuestra función de pérdida para garantizar la preservación semántica de la estructura interna en nuestra imagen sintetizada. Además, se discute el CTA basado en teoría de la información y se introduce la pérdida de divergencia de Kullback-Leibler para preservar más información de brillo para la transferencia de estilo fotorrealista. Los extensos resultados experimentales basados en tres conjuntos de datos de referencia, a saber, Iglesias, Paisajes de Flickr y Rostros de Alta Calidad de Flickr, confirmaron un excelente rendimiento en comparación con varios métodos de vanguardia. Basándonos en una evaluación de estudio de usuarios, la mayoría de los usuarios, que oscilaban entre el 61% y el 66%, otorgaron altas puntuaciones a los efectos de transferencia de nuestro método en comparación con el 9% de los usuarios que apoyaron el segundo mejor método. Además, para las preguntas sobre realismo y calidad de transferencia de estilo, obtuvimos la mejor puntuación, es decir, un promedio de 4.5 sobre 5 en comparación con otros métodos de transferencia de estilo.