Aprovechando la inicialización de atención entre vecinos (NAI) para un entrenamiento eficiente de los LLM preentrenados

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprovechando la inicialización de atención entre vecinos (NAI) para un entrenamiento eficiente de los LLM preentrenados

Autores: Tan, Qiao; Zhang, Jingjing

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Aprovechando la inicialización de atención entre vecinos (NAI) para un entrenamiento eficiente de los LLM preentrenados

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelos de lenguaje preentrenados

Recursos computacionales

Proceso de entrenamiento

Inicialización de parámetros

Modelos de lenguaje basados en transformadores

Eficiencia de entrenamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

En el ámbito de los modelos de lenguaje preentrenados (PLMs), el aumento exponencial de recursos computacionales y tiempo requerido para el entrenamiento a medida que los tamaños de los modelos se expanden presenta un desafío significativo. Este documento propone un enfoque innovador llamado inicialización de atención de vecinos (NAI) para acelerar el proceso de entrenamiento de PLMs más grandes mediante la utilización de PLMs más pequeños a través de la inicialización de parámetros. Nuestra metodología se basa en la hipótesis de que los PLMs más pequeños, al haber aprendido previamente estructuras y patrones de lenguaje fundamentales, pueden proporcionar una base de conocimientos sólida para modelos más grandes, lo que se denomina preservación de la función. Específicamente, presentamos un marco integral que detalla el proceso de transferencia de características aprendidas en modelos de lenguaje basados en transformadores utilizando principalmente la atención de vecinos y la capa de vecinos. Realizamos experimentos en GPT-2 y demostramos que nuestro método produce ahorros considerables en costos de entrenamiento en comparación con enfoques estándar, incluido el aprendizaje desde cero y bert2BERT, lo que indica una notable mejora en la eficiencia de entrenamiento para PLMs grandes.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro