Lora Fusion: mejorando la generación de imágenes
Autores: Choi, Dooho; Im, Jeonghyeon; Sung, Yunsick
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Lora Fusion: mejorando la generación de imágenes
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Avances
LoRA
Módulos
Método de fusión
Mecanismo de atención
Adaptación de dominio
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
Los recientes avances en la adaptación de bajo rango (LoRA) han demostrado su efectividad en el ajuste fino de modelos de difusión para generar imágenes adaptadas a nuevas tareas posteriores. La investigación sobre la integración de múltiples módulos LoRA para dar cabida a nuevas tareas también ha ganado tracción. Un enfoque emergente construye varios módulos LoRA, pero más de tres típicamente disminuyen el rendimiento de generación de modelos pre-entrenados. El modelo de mezcla de expertos resuelve el problema de rendimiento, pero los módulos LoRA no se combinan utilizando indicaciones de texto; por lo tanto, la generación de imágenes al combinar módulos LoRA no refleja dinámicamente los requisitos deseados del usuario. Este artículo propone un método de fusión LoRA que aplica un mecanismo de atención para capturar efectivamente la intención de indicación de texto del usuario. Este método calcula la similitud del coseno entre claves predefinidas y consultas y utiliza la suma ponderada de los valores correspondientes para generar módulos LoRA específicos de la tarea sin necesidad de volver a entrenar. Este método garantiza la estabilidad al fusionar múltiples módulos LoRA y se desempeña de manera comparable a los modelos LoRA completamente reentrenados. La técnica ofrece una solución más eficiente y escalable para la adaptación de dominio en modelos de lenguaje grandes, manteniendo eficazmente la estabilidad y el rendimiento a medida que se adapta a nuevas tareas. En los experimentos, el método propuesto superó a los métodos existentes en la alineación de texto-imagen y la similitud de imagen. Específicamente, el método propuesto logró una puntuación de alineación texto-imagen de 0.744, superando una puntuación de SVDiff de 0.724 y una puntuación de composición aritmética lineal normalizada de 0.698. Además, el método propuesto genera imágenes semánticamente precisas y visualmente coherentes superiores.
Descripción
Los recientes avances en la adaptación de bajo rango (LoRA) han demostrado su efectividad en el ajuste fino de modelos de difusión para generar imágenes adaptadas a nuevas tareas posteriores. La investigación sobre la integración de múltiples módulos LoRA para dar cabida a nuevas tareas también ha ganado tracción. Un enfoque emergente construye varios módulos LoRA, pero más de tres típicamente disminuyen el rendimiento de generación de modelos pre-entrenados. El modelo de mezcla de expertos resuelve el problema de rendimiento, pero los módulos LoRA no se combinan utilizando indicaciones de texto; por lo tanto, la generación de imágenes al combinar módulos LoRA no refleja dinámicamente los requisitos deseados del usuario. Este artículo propone un método de fusión LoRA que aplica un mecanismo de atención para capturar efectivamente la intención de indicación de texto del usuario. Este método calcula la similitud del coseno entre claves predefinidas y consultas y utiliza la suma ponderada de los valores correspondientes para generar módulos LoRA específicos de la tarea sin necesidad de volver a entrenar. Este método garantiza la estabilidad al fusionar múltiples módulos LoRA y se desempeña de manera comparable a los modelos LoRA completamente reentrenados. La técnica ofrece una solución más eficiente y escalable para la adaptación de dominio en modelos de lenguaje grandes, manteniendo eficazmente la estabilidad y el rendimiento a medida que se adapta a nuevas tareas. En los experimentos, el método propuesto superó a los métodos existentes en la alineación de texto-imagen y la similitud de imagen. Específicamente, el método propuesto logró una puntuación de alineación texto-imagen de 0.744, superando una puntuación de SVDiff de 0.724 y una puntuación de composición aritmética lineal normalizada de 0.698. Además, el método propuesto genera imágenes semánticamente precisas y visualmente coherentes superiores.