Mejorando la generalización sistemática del transformador lineal utilizando capas de normalización y una función de pérdida de ortogonalidad

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando la generalización sistemática del transformador lineal utilizando capas de normalización y una función de pérdida de ortogonalidad

Autores: Park, Taewon; Kim, Hyun-Chul

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Mejorando la generalización sistemática del transformador lineal utilizando capas de normalización y una función de pérdida de ortogonalidad

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Transformador

Lineal

Eficiencia

Generalización

Normalización

Ortogonalidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones

Un Transformador Lineal linealiza el mecanismo de atención de la arquitectura del Transformer básico, mejorando significativamente la eficiencia y logrando una complejidad teórica lineal con respecto a la longitud de la secuencia. Sin embargo, pocos estudios han explorado las capacidades del Transformador Lineal más allá de su eficiencia. En este trabajo, investigamos la capacidad de generalización sistemática del Transformador Lineal, una propiedad crucial para una generalización sólida hacia datos no vistos. A través de experimentos preliminares, identificamos dos problemas principales que contribuyen a su rendimiento inestable en la generalización sistemática: (i) normas no restringidas de y , y (ii) alta correlación entre a lo largo de la secuencia. Para abordar estos problemas, proponemos dos métodos simples pero efectivos: capas de normalización para y , y una función de pérdida de ortogonalidad aplicada a durante el entrenamiento. En experimentos, demostramos que aplicar estos métodos al Transformador Lineal mejora significativamente su estabilidad y rendimiento en la generalización sistemática en varias tareas conocidas. Además, nuestros métodos propuestos superan al Transformer básico en tareas específicas de generalización sistemática, como las tareas sort-of-CLEVR y SCAN.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro