Rediseñando capas de incrustación para consultas, claves y valores en transformadores de imágenes de covarianza cruzada
Autores: Ahn, Jaesin; Hong, Jiuk; Ju, Jeongwoo; Jung, Heechul
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Rediseñando capas de incrustación para consultas, claves y valores en transformadores de imágenes de covarianza cruzada
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Transformadores
Complejidad temporal
Dimensiones del token
Rendimiento de generalización
Capas de incrustación
Aprendizaje por transferencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Existen varios intentos en transformadores de visión para reducir la complejidad temporal cuadrática a complejidad temporal lineal de acuerdo con el aumento en el número de tokens. Los transformadores de imágenes de covarianza cruzada (XCiT) también son una de las técnicas utilizadas para abordar el problema. Sin embargo, a pesar de estos esfuerzos, el aumento en las dimensiones de los tokens sigue dando como resultado un crecimiento cuadrático en la complejidad temporal, y la dimensión es un parámetro clave para lograr un rendimiento de generalización superior. En este artículo, se propone un método novedoso para mejorar el rendimiento de generalización de los modelos XCiT sin aumentar las dimensiones de los tokens. Rediseñamos las capas de incrustación de consultas, claves y valores, como la incrustación no lineal separada (SNE), la incrustación no lineal parcialmente compartida (P-SNE) y la incrustación no lineal totalmente compartida (F-SNE). Finalmente, una estructura propuesta con diferentes configuraciones de tamaño de modelo logró , y en ImageNet-1k en comparación con , y adquiridos por los modelos XCiT originales, a saber, XCiT-N12, XCiT-T12 y XCiT-S12, respectivamente. Además, el modelo propuesto logró en experimentos de transferencia de aprendizaje, en promedio, para CIFAR-10, CIFAR-100, Stanford Cars y STL-10, lo cual es superior al modelo base de XCiT-S12 (). En particular, los modelos propuestos demostraron mejoras considerables en la tarea de detección fuera de distribución en comparación con los modelos XCiT originales.
Descripción
Existen varios intentos en transformadores de visión para reducir la complejidad temporal cuadrática a complejidad temporal lineal de acuerdo con el aumento en el número de tokens. Los transformadores de imágenes de covarianza cruzada (XCiT) también son una de las técnicas utilizadas para abordar el problema. Sin embargo, a pesar de estos esfuerzos, el aumento en las dimensiones de los tokens sigue dando como resultado un crecimiento cuadrático en la complejidad temporal, y la dimensión es un parámetro clave para lograr un rendimiento de generalización superior. En este artículo, se propone un método novedoso para mejorar el rendimiento de generalización de los modelos XCiT sin aumentar las dimensiones de los tokens. Rediseñamos las capas de incrustación de consultas, claves y valores, como la incrustación no lineal separada (SNE), la incrustación no lineal parcialmente compartida (P-SNE) y la incrustación no lineal totalmente compartida (F-SNE). Finalmente, una estructura propuesta con diferentes configuraciones de tamaño de modelo logró , y en ImageNet-1k en comparación con , y adquiridos por los modelos XCiT originales, a saber, XCiT-N12, XCiT-T12 y XCiT-S12, respectivamente. Además, el modelo propuesto logró en experimentos de transferencia de aprendizaje, en promedio, para CIFAR-10, CIFAR-100, Stanford Cars y STL-10, lo cual es superior al modelo base de XCiT-S12 (). En particular, los modelos propuestos demostraron mejoras considerables en la tarea de detección fuera de distribución en comparación con los modelos XCiT originales.