Estructura consciente de baja graduación adaptativa para ajuste fino eficiente de parámetros
Autores: Hu, Yahao; Xie, Yifei; Wang, Tianfeng; Chen, Man; Pan, Zhisong
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Estructura consciente de baja graduación adaptativa para ajuste fino eficiente de parámetros
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Modelos de lenguaje pre-entrenados
Técnicas de adaptación eficientes en parámetros
Adaptación de bajo rango
Información estructural
Adaptación de bajo rango consciente de la estructura
Actualizaciones incrementales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
Con el creciente tamaño de los modelos de lenguaje pre-entrenados (PLMs), el ajuste fino de todos los parámetros se vuelve prohibitivamente caro y prácticamente inviable. Por lo tanto, se han propuesto técnicas de adaptación eficientes en parámetros para PLMs para aprender a través de actualizaciones incrementales de los pesos pre-entrenados, como en la adaptación de bajo rango (LoRA). Sin embargo, LoRA se basa en heurísticas para seleccionar los módulos y capas a los que se aplica, asignándoles el mismo rango. Como consecuencia, cualquier ajuste fino que ignore la información estructural entre módulos y capas es subóptimo. En este trabajo, proponemos la adaptación de bajo rango consciente de la estructura (SaLoRA), que aprende de manera adaptativa el rango intrínseco de cada matriz incremental eliminando los componentes de rango 0 durante el entrenamiento. Realizamos experimentos exhaustivos utilizando modelos pre-entrenados de diferentes escalas tanto en configuraciones orientadas a tareas (GLUE) como en configuraciones no orientadas a tareas (Yelp y GYAFC). Los resultados experimentales muestran que SaLoRA captura eficazmente el rango intrínseco consciente de la estructura. Además, nuestro método supera consistentemente a LoRA sin comprometer significativamente la eficiencia del entrenamiento.
Descripción
Con el creciente tamaño de los modelos de lenguaje pre-entrenados (PLMs), el ajuste fino de todos los parámetros se vuelve prohibitivamente caro y prácticamente inviable. Por lo tanto, se han propuesto técnicas de adaptación eficientes en parámetros para PLMs para aprender a través de actualizaciones incrementales de los pesos pre-entrenados, como en la adaptación de bajo rango (LoRA). Sin embargo, LoRA se basa en heurísticas para seleccionar los módulos y capas a los que se aplica, asignándoles el mismo rango. Como consecuencia, cualquier ajuste fino que ignore la información estructural entre módulos y capas es subóptimo. En este trabajo, proponemos la adaptación de bajo rango consciente de la estructura (SaLoRA), que aprende de manera adaptativa el rango intrínseco de cada matriz incremental eliminando los componentes de rango 0 durante el entrenamiento. Realizamos experimentos exhaustivos utilizando modelos pre-entrenados de diferentes escalas tanto en configuraciones orientadas a tareas (GLUE) como en configuraciones no orientadas a tareas (Yelp y GYAFC). Los resultados experimentales muestran que SaLoRA captura eficazmente el rango intrínseco consciente de la estructura. Además, nuestro método supera consistentemente a LoRA sin comprometer significativamente la eficiencia del entrenamiento.