Selección de Capa Guiada por Activación para LoRA

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Selección de Capa Guiada por Activación para LoRA

Autores: Dawadikar, Aditya; Shyamsundar, Pooja; Bhat, Rashmi Vishwanath; Saxena, Navrati

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Selección de Capa Guiada por Activación para LoRA

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Adaptación de bajo rango

Lora

Ajuste fino

Adaptadores

Selección guiada por activación

Referencia glue

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La Adaptación de Bajo Rango (LoRA) se ha convertido en una técnica de ajuste fino eficiente en parámetros (PEFT) ampliamente adoptada para modelos de lenguaje grandes (LLMs). Los beneficios de LoRA provienen de sus adaptadores ligeros y modulares. LoRA estándar aplica adaptadores de manera uniforme en todas las capas del Transformer, asumiendo implícitamente que cada capa contribuye de manera equitativa a la adaptación de la tarea. Sin embargo, se ha encontrado que los LLMs tienen subestructuras internas que contribuyen de manera desproporcionada. En este trabajo, proporcionamos un análisis teórico de cómo las actualizaciones de peso de LoRA están influenciadas por la magnitud de activación de una capa. Proponemos Act-LoRA, una estrategia simple de selección de capas guiada por la activación para la Adaptación de Bajo Rango selectiva. Evaluamos esta estrategia tanto para arquitecturas solo de codificador como solo de decodificador utilizando el benchmark GLUE. Nuestro método logró un ahorro del 20% en GPUh con una caída del 1% en la puntuación de GLUE utilizando DeBERTaV3-Base en una GPU de instancia única con un 50% menos de parámetros de LoRA. También logró un ahorro del 2% en GPUh con una caída de menos del 0.15% en la puntuación de GLUE con el modelo Llama-3.1-8B en modo de Paralelismo de Datos Distribuido con un 25% menos de parámetros de LoRA. Nuestros experimentos y análisis muestran que los requisitos de computación y memoria de los adaptadores LoRA aumentan linealmente con el número de capas seleccionadas. Además, comparamos la selección guiada por activación con métricas de importancia guiadas por gradiente y mostramos que las normas de activación producen clasificaciones de capas más estables y reproducibles a través de semillas y conjuntos de datos. En general, nuestros resultados demuestran que la selección de capas guiada por activación es una forma práctica y efectiva de mejorar la eficiencia del ajuste fino de LoRA, haciéndola inmediatamente compatible con algunas técnicas PEFT existentes y marcos de entrenamiento distribuido.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro