Aprovechando la inicialización de atención entre vecinos (NAI) para un entrenamiento eficiente de los LLM preentrenados
Autores: Tan, Qiao; Zhang, Jingjing
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aprovechando la inicialización de atención entre vecinos (NAI) para un entrenamiento eficiente de los LLM preentrenados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Modelos de lenguaje preentrenados
Recursos computacionales
Proceso de entrenamiento
Inicialización de parámetros
Modelos de lenguaje basados en transformadores
Eficiencia de entrenamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
En el ámbito de los modelos de lenguaje preentrenados (PLMs), el aumento exponencial de recursos computacionales y tiempo requerido para el entrenamiento a medida que los tamaños de los modelos se expanden presenta un desafío significativo. Este documento propone un enfoque innovador llamado inicialización de atención de vecinos (NAI) para acelerar el proceso de entrenamiento de PLMs más grandes mediante la utilización de PLMs más pequeños a través de la inicialización de parámetros. Nuestra metodología se basa en la hipótesis de que los PLMs más pequeños, al haber aprendido previamente estructuras y patrones de lenguaje fundamentales, pueden proporcionar una base de conocimientos sólida para modelos más grandes, lo que se denomina preservación de la función. Específicamente, presentamos un marco integral que detalla el proceso de transferencia de características aprendidas en modelos de lenguaje basados en transformadores utilizando principalmente la atención de vecinos y la capa de vecinos. Realizamos experimentos en GPT-2 y demostramos que nuestro método produce ahorros considerables en costos de entrenamiento en comparación con enfoques estándar, incluido el aprendizaje desde cero y bert2BERT, lo que indica una notable mejora en la eficiencia de entrenamiento para PLMs grandes.
Descripción
En el ámbito de los modelos de lenguaje preentrenados (PLMs), el aumento exponencial de recursos computacionales y tiempo requerido para el entrenamiento a medida que los tamaños de los modelos se expanden presenta un desafío significativo. Este documento propone un enfoque innovador llamado inicialización de atención de vecinos (NAI) para acelerar el proceso de entrenamiento de PLMs más grandes mediante la utilización de PLMs más pequeños a través de la inicialización de parámetros. Nuestra metodología se basa en la hipótesis de que los PLMs más pequeños, al haber aprendido previamente estructuras y patrones de lenguaje fundamentales, pueden proporcionar una base de conocimientos sólida para modelos más grandes, lo que se denomina preservación de la función. Específicamente, presentamos un marco integral que detalla el proceso de transferencia de características aprendidas en modelos de lenguaje basados en transformadores utilizando principalmente la atención de vecinos y la capa de vecinos. Realizamos experimentos en GPT-2 y demostramos que nuestro método produce ahorros considerables en costos de entrenamiento en comparación con enfoques estándar, incluido el aprendizaje desde cero y bert2BERT, lo que indica una notable mejora en la eficiencia de entrenamiento para PLMs grandes.