logo móvil
Contáctanos

Estructura consciente de baja graduación adaptativa para ajuste fino eficiente de parámetros

Autores: Hu, Yahao; Xie, Yifei; Wang, Tianfeng; Chen, Man; Pan, Zhisong

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Estructura consciente de baja graduación adaptativa para ajuste fino eficiente de parámetros


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Modelos de lenguaje pre-entrenados
Técnicas de adaptación eficientes en parámetros
Adaptación de bajo rango
Información estructural
Adaptación de bajo rango consciente de la estructura
Actualizaciones incrementales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
Con el creciente tamaño de los modelos de lenguaje pre-entrenados (PLMs), el ajuste fino de todos los parámetros se vuelve prohibitivamente caro y prácticamente inviable. Por lo tanto, se han propuesto técnicas de adaptación eficientes en parámetros para PLMs para aprender a través de actualizaciones incrementales de los pesos pre-entrenados, como en la adaptación de bajo rango (LoRA). Sin embargo, LoRA se basa en heurísticas para seleccionar los módulos y capas a los que se aplica, asignándoles el mismo rango. Como consecuencia, cualquier ajuste fino que ignore la información estructural entre módulos y capas es subóptimo. En este trabajo, proponemos la adaptación de bajo rango consciente de la estructura (SaLoRA), que aprende de manera adaptativa el rango intrínseco de cada matriz incremental eliminando los componentes de rango 0 durante el entrenamiento. Realizamos experimentos exhaustivos utilizando modelos pre-entrenados de diferentes escalas tanto en configuraciones orientadas a tareas (GLUE) como en configuraciones no orientadas a tareas (Yelp y GYAFC). Los resultados experimentales muestran que SaLoRA captura eficazmente el rango intrínseco consciente de la estructura. Además, nuestro método supera consistentemente a LoRA sin comprometer significativamente la eficiencia del entrenamiento.

Otros recursos que podrían interesarte

Temas Virtualpro