Lora Fusion: mejorando la generación de imágenes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Lora Fusion: mejorando la generación de imágenes

Autores: Choi, Dooho; Im, Jeonghyeon; Sung, Yunsick

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Lora Fusion: mejorando la generación de imágenes

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Avances

LoRA

Módulos

Método de fusión

Mecanismo de atención

Adaptación de dominio

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones

Los recientes avances en la adaptación de bajo rango (LoRA) han demostrado su efectividad en el ajuste fino de modelos de difusión para generar imágenes adaptadas a nuevas tareas posteriores. La investigación sobre la integración de múltiples módulos LoRA para dar cabida a nuevas tareas también ha ganado tracción. Un enfoque emergente construye varios módulos LoRA, pero más de tres típicamente disminuyen el rendimiento de generación de modelos pre-entrenados. El modelo de mezcla de expertos resuelve el problema de rendimiento, pero los módulos LoRA no se combinan utilizando indicaciones de texto; por lo tanto, la generación de imágenes al combinar módulos LoRA no refleja dinámicamente los requisitos deseados del usuario. Este artículo propone un método de fusión LoRA que aplica un mecanismo de atención para capturar efectivamente la intención de indicación de texto del usuario. Este método calcula la similitud del coseno entre claves predefinidas y consultas y utiliza la suma ponderada de los valores correspondientes para generar módulos LoRA específicos de la tarea sin necesidad de volver a entrenar. Este método garantiza la estabilidad al fusionar múltiples módulos LoRA y se desempeña de manera comparable a los modelos LoRA completamente reentrenados. La técnica ofrece una solución más eficiente y escalable para la adaptación de dominio en modelos de lenguaje grandes, manteniendo eficazmente la estabilidad y el rendimiento a medida que se adapta a nuevas tareas. En los experimentos, el método propuesto superó a los métodos existentes en la alineación de texto-imagen y la similitud de imagen. Específicamente, el método propuesto logró una puntuación de alineación texto-imagen de 0.744, superando una puntuación de SVDiff de 0.724 y una puntuación de composición aritmética lineal normalizada de 0.698. Además, el método propuesto genera imágenes semánticamente precisas y visualmente coherentes superiores.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro