Modelos basados en transformadores de extremo a extremo en NLP basado en texto
Autores: Rahali, Abir; Akhloufi, Moulay A.
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Modelos basados en transformadores de extremo a extremo en NLP basado en texto
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Arquitecturas de transformador
Mecanismos de autoatención
Dependencias a larga distancia
Procesamiento de lenguaje natural
Diseño arquitectónico
Posibles trabajos futuros
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Las arquitecturas de transformadores son altamente expresivas porque utilizan mecanismos de autoatención para codificar dependencias de largo alcance en las secuencias de entrada. En este documento, presentamos una revisión de la literatura sobre modelos basados en transformadores (TB), proporcionando una descripción detallada de cada modelo en comparación con la arquitectura estándar del Transformer. Esta encuesta se centra en los modelos TB utilizados en el campo del Procesamiento del Lenguaje Natural (NLP) para tareas basadas en texto. Comenzamos con una visión general de los conceptos fundamentales en el corazón del éxito de estos modelos. Luego, los clasificamos según su arquitectura y modo de entrenamiento. Comparamos las ventajas y desventajas de técnicas populares en términos de diseño arquitectónico y valor experimental. Finalmente, discutimos investigaciones abiertas, direcciones y posibles trabajos futuros para ayudar a resolver los desafíos actuales de aplicación de TB en NLP.
Descripción
Las arquitecturas de transformadores son altamente expresivas porque utilizan mecanismos de autoatención para codificar dependencias de largo alcance en las secuencias de entrada. En este documento, presentamos una revisión de la literatura sobre modelos basados en transformadores (TB), proporcionando una descripción detallada de cada modelo en comparación con la arquitectura estándar del Transformer. Esta encuesta se centra en los modelos TB utilizados en el campo del Procesamiento del Lenguaje Natural (NLP) para tareas basadas en texto. Comenzamos con una visión general de los conceptos fundamentales en el corazón del éxito de estos modelos. Luego, los clasificamos según su arquitectura y modo de entrenamiento. Comparamos las ventajas y desventajas de técnicas populares en términos de diseño arquitectónico y valor experimental. Finalmente, discutimos investigaciones abiertas, direcciones y posibles trabajos futuros para ayudar a resolver los desafíos actuales de aplicación de TB en NLP.