Un método de transferencia de estilo de difusión latente sin entrenamiento
Autores: Xiang, Zhengtao; Wan, Xing; Xu, Libo; Yu, Xin; Mao, Yuhan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un método de transferencia de estilo de difusión latente sin entrenamiento
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de difusión
Técnicas de transferencia de estilo
Modelo de difusión preentrenado
Módulo de Mapeo de Normalización de Características
Mecanismo de Atención Cruzada
Mecanismo de Atención por Similitud
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los modelos de difusión han atraído un considerable interés académico por su destacado rendimiento en tareas generativas. Sin embargo, las técnicas actuales de transferencia de estilo basadas en modelos de difusión aún dependen del ajuste fino durante la fase de inferencia para optimizar los resultados generados. Este enfoque no solo es laborioso y requiere muchos recursos, sino que también no logra aprovechar completamente el potencial creativo de los amplios modelos de difusión. Para superar esta limitación, este artículo presenta una solución innovadora que utiliza un modelo de difusión preentrenado, eliminando así la necesidad de pasos de entrenamiento adicionales. El esquema propone un Módulo de Mapeo de Normalización de Características con Mecanismo de Atención Cruzada (INN-FMM) basado en el modelo de difusión de doble camino. Este módulo emplea atención suave para extraer características de estilo e integrarlas con características de contenido. Además, se emplea un Mecanismo de Atención de Similitud (SimAM) sin parámetros dentro del espacio de características de imagen para facilitar la transferencia de texturas y colores de la imagen de estilo, al mismo tiempo que minimiza la pérdida de información estructural del contenido. La fusión de estos dos mecanismos de atención nos permite lograr la transferencia de estilo en textura y color sin sacrificar la integridad del contenido. Los resultados experimentales indican que nuestro enfoque supera a los métodos existentes en varias métricas de evaluación.
Descripción
Los modelos de difusión han atraído un considerable interés académico por su destacado rendimiento en tareas generativas. Sin embargo, las técnicas actuales de transferencia de estilo basadas en modelos de difusión aún dependen del ajuste fino durante la fase de inferencia para optimizar los resultados generados. Este enfoque no solo es laborioso y requiere muchos recursos, sino que también no logra aprovechar completamente el potencial creativo de los amplios modelos de difusión. Para superar esta limitación, este artículo presenta una solución innovadora que utiliza un modelo de difusión preentrenado, eliminando así la necesidad de pasos de entrenamiento adicionales. El esquema propone un Módulo de Mapeo de Normalización de Características con Mecanismo de Atención Cruzada (INN-FMM) basado en el modelo de difusión de doble camino. Este módulo emplea atención suave para extraer características de estilo e integrarlas con características de contenido. Además, se emplea un Mecanismo de Atención de Similitud (SimAM) sin parámetros dentro del espacio de características de imagen para facilitar la transferencia de texturas y colores de la imagen de estilo, al mismo tiempo que minimiza la pérdida de información estructural del contenido. La fusión de estos dos mecanismos de atención nos permite lograr la transferencia de estilo en textura y color sin sacrificar la integridad del contenido. Los resultados experimentales indican que nuestro enfoque supera a los métodos existentes en varias métricas de evaluación.