logo móvil
Contáctanos

Rediseñando capas de incrustación para consultas, claves y valores en transformadores de imágenes de covarianza cruzada

Autores: Ahn, Jaesin; Hong, Jiuk; Ju, Jeongwoo; Jung, Heechul

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Rediseñando capas de incrustación para consultas, claves y valores en transformadores de imágenes de covarianza cruzada


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Transformadores
Complejidad temporal
Dimensiones del token
Rendimiento de generalización
Capas de incrustación
Aprendizaje por transferencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
Existen varios intentos en transformadores de visión para reducir la complejidad temporal cuadrática a complejidad temporal lineal de acuerdo con el aumento en el número de tokens. Los transformadores de imágenes de covarianza cruzada (XCiT) también son una de las técnicas utilizadas para abordar el problema. Sin embargo, a pesar de estos esfuerzos, el aumento en las dimensiones de los tokens sigue dando como resultado un crecimiento cuadrático en la complejidad temporal, y la dimensión es un parámetro clave para lograr un rendimiento de generalización superior. En este artículo, se propone un método novedoso para mejorar el rendimiento de generalización de los modelos XCiT sin aumentar las dimensiones de los tokens. Rediseñamos las capas de incrustación de consultas, claves y valores, como la incrustación no lineal separada (SNE), la incrustación no lineal parcialmente compartida (P-SNE) y la incrustación no lineal totalmente compartida (F-SNE). Finalmente, una estructura propuesta con diferentes configuraciones de tamaño de modelo logró , y en ImageNet-1k en comparación con , y adquiridos por los modelos XCiT originales, a saber, XCiT-N12, XCiT-T12 y XCiT-S12, respectivamente. Además, el modelo propuesto logró en experimentos de transferencia de aprendizaje, en promedio, para CIFAR-10, CIFAR-100, Stanford Cars y STL-10, lo cual es superior al modelo base de XCiT-S12 (). En particular, los modelos propuestos demostraron mejoras considerables en la tarea de detección fuera de distribución en comparación con los modelos XCiT originales.

Otros recursos que podrían interesarte

Temas Virtualpro