logo móvil
Contáctanos

Un enfoque matemático de autoregressive generative pre-trained transformer y aprendizaje auto-supervisado

Autores: Lee, Minhyeok

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un enfoque matemático de autoregressive generative pre-trained transformer y aprendizaje auto-supervisado


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Modelos de lenguaje autoregresivos preentrenados generativos
Aprendizaje auto-supervisado
Espacio de conocimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones


Descripción
En este documento, presentamos un examen matemático riguroso de los modelos generativos pre-entrenados de transformadores (GPT) y sus mecanismos de aprendizaje auto-supervisado autoregresivos. Comenzamos definiendo el espacio de lenguaje natural y el espacio de conocimiento, que son dos conceptos clave para comprender el proceso de reducción de dimensionalidad en los modelos de lenguaje grande basados en GPT. Al explorar las funciones de proyección y sus inversas, establecemos un marco para analizar las capacidades de generación de lenguaje de estos modelos. Luego investigamos el espacio de representación de GPT, examinando sus implicaciones para las propiedades de aproximación de los modelos. Finalmente, discutimos las limitaciones y desafíos de los modelos GPT y sus mecanismos de aprendizaje, considerando los compromisos entre complejidad y generalización, así como las implicaciones de funciones de proyección inversas incompletas. Nuestros hallazgos demuestran que los modelos GPT poseen la capacidad de codificar conocimiento en vectores de baja dimensionalidad a través de su mecanismo de aprendizaje auto-supervisado autoregresivo. Este análisis exhaustivo proporciona una sólida base matemática para futuros avances en los modelos de lenguaje grande basados en GPT, prometiendo avances en tareas de procesamiento de lenguaje natural como la traducción de lenguaje, la sumarización de texto y la respuesta a preguntas debido a una mejor comprensión y optimización del entrenamiento y rendimiento del modelo.

Otros recursos que podrían interesarte

Temas Virtualpro