Estructura consciente de baja graduación adaptativa para ajuste fino eficiente de parámetros

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Estructura consciente de baja graduación adaptativa para ajuste fino eficiente de parámetros

Autores: Hu, Yahao; Xie, Yifei; Wang, Tianfeng; Chen, Man; Pan, Zhisong

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Estructura consciente de baja graduación adaptativa para ajuste fino eficiente de parámetros

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Modelos de lenguaje pre-entrenados

Técnicas de adaptación eficientes en parámetros

Adaptación de bajo rango

Información estructural

Adaptación de bajo rango consciente de la estructura

Actualizaciones incrementales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones

Con el creciente tamaño de los modelos de lenguaje pre-entrenados (PLMs), el ajuste fino de todos los parámetros se vuelve prohibitivamente caro y prácticamente inviable. Por lo tanto, se han propuesto técnicas de adaptación eficientes en parámetros para PLMs para aprender a través de actualizaciones incrementales de los pesos pre-entrenados, como en la adaptación de bajo rango (LoRA). Sin embargo, LoRA se basa en heurísticas para seleccionar los módulos y capas a los que se aplica, asignándoles el mismo rango. Como consecuencia, cualquier ajuste fino que ignore la información estructural entre módulos y capas es subóptimo. En este trabajo, proponemos la adaptación de bajo rango consciente de la estructura (SaLoRA), que aprende de manera adaptativa el rango intrínseco de cada matriz incremental eliminando los componentes de rango 0 durante el entrenamiento. Realizamos experimentos exhaustivos utilizando modelos pre-entrenados de diferentes escalas tanto en configuraciones orientadas a tareas (GLUE) como en configuraciones no orientadas a tareas (Yelp y GYAFC). Los resultados experimentales muestran que SaLoRA captura eficazmente el rango intrínseco consciente de la estructura. Además, nuestro método supera consistentemente a LoRA sin comprometer significativamente la eficiencia del entrenamiento.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro