Contextualizador: Conectando los Puntos del Contexto con Atención de Segundo Orden
Autores: Maupomé, Diego; Meurs, Marie-Jean
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Contextualizador: Conectando los Puntos del Contexto con Atención de Segundo Orden
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Representación
Arquitectura de transformadores
Computación
Mecanismo de atención
Algoritmo
Clasificación de texto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Componer la representación de una oración a partir de los tokens que la componen es difícil, porque tal representación necesita tener en cuenta cómo se relacionan entre sí las palabras presentes. La arquitectura Transformer hace esto cambiando iterativamente las representaciones de los tokens con respecto a unos a otros. Esto tiene la desventaja de requerir un cálculo que crece cuadráticamente con respecto al número de tokens. Además, el mecanismo de atención escalar utilizado por los Transformers requiere múltiples conjuntos de parámetros para operar sobre diferentes características. El presente artículo propone un algoritmo más ligero para la representación de oraciones con una complejidad lineal en la longitud de la secuencia. Este algoritmo comienza con un valor presumiblemente erróneo de un vector de contexto y ajusta este valor con respecto a los tokens en cuestión. Para lograr esto, se construyen representaciones de palabras combinando su incrustación simbólica con una codificación posicional en vectores únicos. El algoritmo luego pesa y agrega iterativamente estos vectores utilizando un mecanismo de atención de segundo orden, que permite que diferentes pares de características interactúen entre sí por separado. Nuestros modelos reportan resultados sólidos en varias tareas de clasificación de texto bien conocidas.
Descripción
Componer la representación de una oración a partir de los tokens que la componen es difícil, porque tal representación necesita tener en cuenta cómo se relacionan entre sí las palabras presentes. La arquitectura Transformer hace esto cambiando iterativamente las representaciones de los tokens con respecto a unos a otros. Esto tiene la desventaja de requerir un cálculo que crece cuadráticamente con respecto al número de tokens. Además, el mecanismo de atención escalar utilizado por los Transformers requiere múltiples conjuntos de parámetros para operar sobre diferentes características. El presente artículo propone un algoritmo más ligero para la representación de oraciones con una complejidad lineal en la longitud de la secuencia. Este algoritmo comienza con un valor presumiblemente erróneo de un vector de contexto y ajusta este valor con respecto a los tokens en cuestión. Para lograr esto, se construyen representaciones de palabras combinando su incrustación simbólica con una codificación posicional en vectores únicos. El algoritmo luego pesa y agrega iterativamente estos vectores utilizando un mecanismo de atención de segundo orden, que permite que diferentes pares de características interactúen entre sí por separado. Nuestros modelos reportan resultados sólidos en varias tareas de clasificación de texto bien conocidas.