logo móvil
Contáctanos

Aprovechando la inicialización de atención entre vecinos (NAI) para un entrenamiento eficiente de los LLM preentrenados

Autores: Tan, Qiao; Zhang, Jingjing

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Aprovechando la inicialización de atención entre vecinos (NAI) para un entrenamiento eficiente de los LLM preentrenados


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelos de lenguaje preentrenados
Recursos computacionales
Proceso de entrenamiento
Inicialización de parámetros
Modelos de lenguaje basados en transformadores
Eficiencia de entrenamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
En el ámbito de los modelos de lenguaje preentrenados (PLMs), el aumento exponencial de recursos computacionales y tiempo requerido para el entrenamiento a medida que los tamaños de los modelos se expanden presenta un desafío significativo. Este documento propone un enfoque innovador llamado inicialización de atención de vecinos (NAI) para acelerar el proceso de entrenamiento de PLMs más grandes mediante la utilización de PLMs más pequeños a través de la inicialización de parámetros. Nuestra metodología se basa en la hipótesis de que los PLMs más pequeños, al haber aprendido previamente estructuras y patrones de lenguaje fundamentales, pueden proporcionar una base de conocimientos sólida para modelos más grandes, lo que se denomina preservación de la función. Específicamente, presentamos un marco integral que detalla el proceso de transferencia de características aprendidas en modelos de lenguaje basados en transformadores utilizando principalmente la atención de vecinos y la capa de vecinos. Realizamos experimentos en GPT-2 y demostramos que nuestro método produce ahorros considerables en costos de entrenamiento en comparación con enfoques estándar, incluido el aprendizaje desde cero y bert2BERT, lo que indica una notable mejora en la eficiencia de entrenamiento para PLMs grandes.

Otros recursos que podrían interesarte

Temas Virtualpro