Generación de imagen estilizada adaptativa para batik tradicional Miao utilizando modelos de difusión mejorados LCM-LoRA condicionados por estilo
Autores: Hu, Qingqing; Peng, Yiran; Xu, Jing; Shao, Zichun; Tian, Zhen; Chen, Junming
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Generación de imagen estilizada adaptativa para batik tradicional Miao utilizando modelos de difusión mejorados LCM-LoRA condicionados por estilo
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Tradicional
Batik Miao
Modelos generativos
Generación de imágenes con conciencia semántica
Adaptación de Bajo Rango
Fusión Lineal Condicionada por Estilo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Como patrimonio cultural inmaterial nacional en China, el batik tradicional Miao ha encontrado obstáculos en la difusión y diseño contemporáneos debido a su dependencia de la artesanía manual y otras razones. Los modelos generativos existentes son difíciles de capturar completamente los atributos semánticos y estilísticos complejos en los patrones de batik Miao, lo que limita su aplicación en la creatividad digital. Para abordar este problema, construimos el conjunto de datos estructurado CMBP-9 para facilitar la generación de imágenes conscientes de la semántica. Basado en la difusión estable v1.5, se utiliza la Adaptación de Bajo Rango (LoRA) para transferir de manera efectiva las características de estructura, signo y textura que son únicas para el pueblo Miao, y el modelo de Consistencia Latente (LCM) se integra para mejorar la eficiencia de inferencia. Además, se propone una estrategia de Fusión Lineal Condicionada por Estilo (SCLF) para ajustar dinámicamente la fusión de las salidas de LoRA y LCM según la complejidad semántica de las indicaciones de entrada, superando así la limitación de ponderación estática en los marcos existentes. Evaluaciones cuantitativas extensas utilizando métricas LPIPS, SSIM, PSNR, FID y evaluaciones humanas muestran que el marco propuesto Batik-MPDM logra un rendimiento superior en términos de fidelidad de estilo y eficiencia de generación en comparación con los métodos de referencia.
Descripción
Como patrimonio cultural inmaterial nacional en China, el batik tradicional Miao ha encontrado obstáculos en la difusión y diseño contemporáneos debido a su dependencia de la artesanía manual y otras razones. Los modelos generativos existentes son difíciles de capturar completamente los atributos semánticos y estilísticos complejos en los patrones de batik Miao, lo que limita su aplicación en la creatividad digital. Para abordar este problema, construimos el conjunto de datos estructurado CMBP-9 para facilitar la generación de imágenes conscientes de la semántica. Basado en la difusión estable v1.5, se utiliza la Adaptación de Bajo Rango (LoRA) para transferir de manera efectiva las características de estructura, signo y textura que son únicas para el pueblo Miao, y el modelo de Consistencia Latente (LCM) se integra para mejorar la eficiencia de inferencia. Además, se propone una estrategia de Fusión Lineal Condicionada por Estilo (SCLF) para ajustar dinámicamente la fusión de las salidas de LoRA y LCM según la complejidad semántica de las indicaciones de entrada, superando así la limitación de ponderación estática en los marcos existentes. Evaluaciones cuantitativas extensas utilizando métricas LPIPS, SSIM, PSNR, FID y evaluaciones humanas muestran que el marco propuesto Batik-MPDM logra un rendimiento superior en términos de fidelidad de estilo y eficiencia de generación en comparación con los métodos de referencia.