logo móvil
Contáctanos

Lora Fusion: mejorando la generación de imágenes

Autores: Choi, Dooho; Im, Jeonghyeon; Sung, Yunsick

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Lora Fusion: mejorando la generación de imágenes


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Avances
LoRA
Módulos
Método de fusión
Mecanismo de atención
Adaptación de dominio

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones


Descripción
Los recientes avances en la adaptación de bajo rango (LoRA) han demostrado su efectividad en el ajuste fino de modelos de difusión para generar imágenes adaptadas a nuevas tareas posteriores. La investigación sobre la integración de múltiples módulos LoRA para dar cabida a nuevas tareas también ha ganado tracción. Un enfoque emergente construye varios módulos LoRA, pero más de tres típicamente disminuyen el rendimiento de generación de modelos pre-entrenados. El modelo de mezcla de expertos resuelve el problema de rendimiento, pero los módulos LoRA no se combinan utilizando indicaciones de texto; por lo tanto, la generación de imágenes al combinar módulos LoRA no refleja dinámicamente los requisitos deseados del usuario. Este artículo propone un método de fusión LoRA que aplica un mecanismo de atención para capturar efectivamente la intención de indicación de texto del usuario. Este método calcula la similitud del coseno entre claves predefinidas y consultas y utiliza la suma ponderada de los valores correspondientes para generar módulos LoRA específicos de la tarea sin necesidad de volver a entrenar. Este método garantiza la estabilidad al fusionar múltiples módulos LoRA y se desempeña de manera comparable a los modelos LoRA completamente reentrenados. La técnica ofrece una solución más eficiente y escalable para la adaptación de dominio en modelos de lenguaje grandes, manteniendo eficazmente la estabilidad y el rendimiento a medida que se adapta a nuevas tareas. En los experimentos, el método propuesto superó a los métodos existentes en la alineación de texto-imagen y la similitud de imagen. Específicamente, el método propuesto logró una puntuación de alineación texto-imagen de 0.744, superando una puntuación de SVDiff de 0.724 y una puntuación de composición aritmética lineal normalizada de 0.698. Además, el método propuesto genera imágenes semánticamente precisas y visualmente coherentes superiores.

Otros recursos que podrían interesarte

Temas Virtualpro