logo móvil
Contáctanos

Una Revisión Sistemática de Modelos de Lenguaje Preentrenados Basados en Transformadores a Través del Aprendizaje Auto-Supervisado

Autores: Kotei, Evans; Thirunavukarasu, Ramkumar

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Una Revisión Sistemática de Modelos de Lenguaje Preentrenados Basados en Transformadores a Través del Aprendizaje Auto-Supervisado


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aprendizaje por transferencia
Aplicaciones de aprendizaje profundo
Modelos de NLP preentrenados
BERT
GPT
Arquitectura de transformadores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El aprendizaje por transferencia es una técnica utilizada en aplicaciones de aprendizaje profundo para transmitir inferencias aprendidas a un dominio objetivo diferente. El enfoque se utiliza principalmente para resolver el problema de que unos pocos conjuntos de datos de entrenamiento resultan en un sobreajuste del modelo, lo que afecta el rendimiento del modelo. El estudio se llevó a cabo sobre publicaciones recuperadas de varias bibliotecas digitales como SCOPUS, ScienceDirect, IEEE Xplore, ACM Digital Library y Google Scholar, que formaron los estudios primarios. Los estudios secundarios se recuperaron de artículos primarios utilizando el enfoque de bola de nieve hacia atrás y hacia adelante. Basado en parámetros de inclusión y exclusión establecidos, se seleccionaron publicaciones relevantes para su revisión. El estudio se centró en modelos de NLP preentrenados de aprendizaje por transferencia basados en la red profunda de transformadores. BERT y GPT fueron los dos modelos preentrenados de élite entrenados para clasificar representaciones globales y locales basadas en conjuntos de datos de texto no etiquetados más grandes a través del aprendizaje auto-supervisado. Los modelos de transformadores preentrenados ofrecen numerosas ventajas a los modelos de procesamiento de lenguaje natural, como la transferencia de conocimiento a tareas posteriores que abordan los inconvenientes asociados con el entrenamiento de un modelo desde cero. Esta revisión ofrece una visión completa de la arquitectura de transformadores, el aprendizaje auto-supervisado y los conceptos de preentrenamiento en modelos de lenguaje, y su adaptación a tareas posteriores. Finalmente, presentamos direcciones futuras para mejorar aún más los modelos de lenguaje basados en transformadores preentrenados.

Otros recursos que podrían interesarte

Temas Virtualpro