Mejorando la generalización sistemática del transformador lineal utilizando capas de normalización y una función de pérdida de ortogonalidad
Autores: Park, Taewon; Kim, Hyun-Chul
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mejorando la generalización sistemática del transformador lineal utilizando capas de normalización y una función de pérdida de ortogonalidad
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Transformador
Lineal
Eficiencia
Generalización
Normalización
Ortogonalidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Un Transformador Lineal linealiza el mecanismo de atención de la arquitectura del Transformer básico, mejorando significativamente la eficiencia y logrando una complejidad teórica lineal con respecto a la longitud de la secuencia. Sin embargo, pocos estudios han explorado las capacidades del Transformador Lineal más allá de su eficiencia. En este trabajo, investigamos la capacidad de generalización sistemática del Transformador Lineal, una propiedad crucial para una generalización sólida hacia datos no vistos. A través de experimentos preliminares, identificamos dos problemas principales que contribuyen a su rendimiento inestable en la generalización sistemática: (i) normas no restringidas de y , y (ii) alta correlación entre a lo largo de la secuencia. Para abordar estos problemas, proponemos dos métodos simples pero efectivos: capas de normalización para y , y una función de pérdida de ortogonalidad aplicada a durante el entrenamiento. En experimentos, demostramos que aplicar estos métodos al Transformador Lineal mejora significativamente su estabilidad y rendimiento en la generalización sistemática en varias tareas conocidas. Además, nuestros métodos propuestos superan al Transformer básico en tareas específicas de generalización sistemática, como las tareas sort-of-CLEVR y SCAN.
Descripción
Un Transformador Lineal linealiza el mecanismo de atención de la arquitectura del Transformer básico, mejorando significativamente la eficiencia y logrando una complejidad teórica lineal con respecto a la longitud de la secuencia. Sin embargo, pocos estudios han explorado las capacidades del Transformador Lineal más allá de su eficiencia. En este trabajo, investigamos la capacidad de generalización sistemática del Transformador Lineal, una propiedad crucial para una generalización sólida hacia datos no vistos. A través de experimentos preliminares, identificamos dos problemas principales que contribuyen a su rendimiento inestable en la generalización sistemática: (i) normas no restringidas de y , y (ii) alta correlación entre a lo largo de la secuencia. Para abordar estos problemas, proponemos dos métodos simples pero efectivos: capas de normalización para y , y una función de pérdida de ortogonalidad aplicada a durante el entrenamiento. En experimentos, demostramos que aplicar estos métodos al Transformador Lineal mejora significativamente su estabilidad y rendimiento en la generalización sistemática en varias tareas conocidas. Además, nuestros métodos propuestos superan al Transformer básico en tareas específicas de generalización sistemática, como las tareas sort-of-CLEVR y SCAN.