Selección de Capa Guiada por Activación para LoRA
Autores: Dawadikar, Aditya; Shyamsundar, Pooja; Bhat, Rashmi Vishwanath; Saxena, Navrati
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Selección de Capa Guiada por Activación para LoRA
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Adaptación de bajo rango
Lora
Ajuste fino
Adaptadores
Selección guiada por activación
Referencia glue
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La Adaptación de Bajo Rango (LoRA) se ha convertido en una técnica de ajuste fino eficiente en parámetros (PEFT) ampliamente adoptada para modelos de lenguaje grandes (LLMs). Los beneficios de LoRA provienen de sus adaptadores ligeros y modulares. LoRA estándar aplica adaptadores de manera uniforme en todas las capas del Transformer, asumiendo implícitamente que cada capa contribuye de manera equitativa a la adaptación de la tarea. Sin embargo, se ha encontrado que los LLMs tienen subestructuras internas que contribuyen de manera desproporcionada. En este trabajo, proporcionamos un análisis teórico de cómo las actualizaciones de peso de LoRA están influenciadas por la magnitud de activación de una capa. Proponemos Act-LoRA, una estrategia simple de selección de capas guiada por la activación para la Adaptación de Bajo Rango selectiva. Evaluamos esta estrategia tanto para arquitecturas solo de codificador como solo de decodificador utilizando el benchmark GLUE. Nuestro método logró un ahorro del 20% en GPUh con una caída del 1% en la puntuación de GLUE utilizando DeBERTaV3-Base en una GPU de instancia única con un 50% menos de parámetros de LoRA. También logró un ahorro del 2% en GPUh con una caída de menos del 0.15% en la puntuación de GLUE con el modelo Llama-3.1-8B en modo de Paralelismo de Datos Distribuido con un 25% menos de parámetros de LoRA. Nuestros experimentos y análisis muestran que los requisitos de computación y memoria de los adaptadores LoRA aumentan linealmente con el número de capas seleccionadas. Además, comparamos la selección guiada por activación con métricas de importancia guiadas por gradiente y mostramos que las normas de activación producen clasificaciones de capas más estables y reproducibles a través de semillas y conjuntos de datos. En general, nuestros resultados demuestran que la selección de capas guiada por activación es una forma práctica y efectiva de mejorar la eficiencia del ajuste fino de LoRA, haciéndola inmediatamente compatible con algunas técnicas PEFT existentes y marcos de entrenamiento distribuido.
Descripción
La Adaptación de Bajo Rango (LoRA) se ha convertido en una técnica de ajuste fino eficiente en parámetros (PEFT) ampliamente adoptada para modelos de lenguaje grandes (LLMs). Los beneficios de LoRA provienen de sus adaptadores ligeros y modulares. LoRA estándar aplica adaptadores de manera uniforme en todas las capas del Transformer, asumiendo implícitamente que cada capa contribuye de manera equitativa a la adaptación de la tarea. Sin embargo, se ha encontrado que los LLMs tienen subestructuras internas que contribuyen de manera desproporcionada. En este trabajo, proporcionamos un análisis teórico de cómo las actualizaciones de peso de LoRA están influenciadas por la magnitud de activación de una capa. Proponemos Act-LoRA, una estrategia simple de selección de capas guiada por la activación para la Adaptación de Bajo Rango selectiva. Evaluamos esta estrategia tanto para arquitecturas solo de codificador como solo de decodificador utilizando el benchmark GLUE. Nuestro método logró un ahorro del 20% en GPUh con una caída del 1% en la puntuación de GLUE utilizando DeBERTaV3-Base en una GPU de instancia única con un 50% menos de parámetros de LoRA. También logró un ahorro del 2% en GPUh con una caída de menos del 0.15% en la puntuación de GLUE con el modelo Llama-3.1-8B en modo de Paralelismo de Datos Distribuido con un 25% menos de parámetros de LoRA. Nuestros experimentos y análisis muestran que los requisitos de computación y memoria de los adaptadores LoRA aumentan linealmente con el número de capas seleccionadas. Además, comparamos la selección guiada por activación con métricas de importancia guiadas por gradiente y mostramos que las normas de activación producen clasificaciones de capas más estables y reproducibles a través de semillas y conjuntos de datos. En general, nuestros resultados demuestran que la selección de capas guiada por activación es una forma práctica y efectiva de mejorar la eficiencia del ajuste fino de LoRA, haciéndola inmediatamente compatible con algunas técnicas PEFT existentes y marcos de entrenamiento distribuido.