Una Revisión Sistemática de Modelos de Lenguaje Preentrenados Basados en Transformadores a Través del Aprendizaje Auto-Supervisado
Autores: Kotei, Evans; Thirunavukarasu, Ramkumar
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Una Revisión Sistemática de Modelos de Lenguaje Preentrenados Basados en Transformadores a Través del Aprendizaje Auto-Supervisado
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aprendizaje por transferencia
Aplicaciones de aprendizaje profundo
Modelos de NLP preentrenados
BERT
GPT
Arquitectura de transformadores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El aprendizaje por transferencia es una técnica utilizada en aplicaciones de aprendizaje profundo para transmitir inferencias aprendidas a un dominio objetivo diferente. El enfoque se utiliza principalmente para resolver el problema de que unos pocos conjuntos de datos de entrenamiento resultan en un sobreajuste del modelo, lo que afecta el rendimiento del modelo. El estudio se llevó a cabo sobre publicaciones recuperadas de varias bibliotecas digitales como SCOPUS, ScienceDirect, IEEE Xplore, ACM Digital Library y Google Scholar, que formaron los estudios primarios. Los estudios secundarios se recuperaron de artículos primarios utilizando el enfoque de bola de nieve hacia atrás y hacia adelante. Basado en parámetros de inclusión y exclusión establecidos, se seleccionaron publicaciones relevantes para su revisión. El estudio se centró en modelos de NLP preentrenados de aprendizaje por transferencia basados en la red profunda de transformadores. BERT y GPT fueron los dos modelos preentrenados de élite entrenados para clasificar representaciones globales y locales basadas en conjuntos de datos de texto no etiquetados más grandes a través del aprendizaje auto-supervisado. Los modelos de transformadores preentrenados ofrecen numerosas ventajas a los modelos de procesamiento de lenguaje natural, como la transferencia de conocimiento a tareas posteriores que abordan los inconvenientes asociados con el entrenamiento de un modelo desde cero. Esta revisión ofrece una visión completa de la arquitectura de transformadores, el aprendizaje auto-supervisado y los conceptos de preentrenamiento en modelos de lenguaje, y su adaptación a tareas posteriores. Finalmente, presentamos direcciones futuras para mejorar aún más los modelos de lenguaje basados en transformadores preentrenados.
Descripción
El aprendizaje por transferencia es una técnica utilizada en aplicaciones de aprendizaje profundo para transmitir inferencias aprendidas a un dominio objetivo diferente. El enfoque se utiliza principalmente para resolver el problema de que unos pocos conjuntos de datos de entrenamiento resultan en un sobreajuste del modelo, lo que afecta el rendimiento del modelo. El estudio se llevó a cabo sobre publicaciones recuperadas de varias bibliotecas digitales como SCOPUS, ScienceDirect, IEEE Xplore, ACM Digital Library y Google Scholar, que formaron los estudios primarios. Los estudios secundarios se recuperaron de artículos primarios utilizando el enfoque de bola de nieve hacia atrás y hacia adelante. Basado en parámetros de inclusión y exclusión establecidos, se seleccionaron publicaciones relevantes para su revisión. El estudio se centró en modelos de NLP preentrenados de aprendizaje por transferencia basados en la red profunda de transformadores. BERT y GPT fueron los dos modelos preentrenados de élite entrenados para clasificar representaciones globales y locales basadas en conjuntos de datos de texto no etiquetados más grandes a través del aprendizaje auto-supervisado. Los modelos de transformadores preentrenados ofrecen numerosas ventajas a los modelos de procesamiento de lenguaje natural, como la transferencia de conocimiento a tareas posteriores que abordan los inconvenientes asociados con el entrenamiento de un modelo desde cero. Esta revisión ofrece una visión completa de la arquitectura de transformadores, el aprendizaje auto-supervisado y los conceptos de preentrenamiento en modelos de lenguaje, y su adaptación a tareas posteriores. Finalmente, presentamos direcciones futuras para mejorar aún más los modelos de lenguaje basados en transformadores preentrenados.