Rediseñando capas de incrustación para consultas, claves y valores en transformadores de imágenes de covarianza cruzada

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Rediseñando capas de incrustación para consultas, claves y valores en transformadores de imágenes de covarianza cruzada

Autores: Ahn, Jaesin; Hong, Jiuk; Ju, Jeongwoo; Jung, Heechul

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Rediseñando capas de incrustación para consultas, claves y valores en transformadores de imágenes de covarianza cruzada

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Transformadores

Complejidad temporal

Dimensiones del token

Rendimiento de generalización

Capas de incrustación

Aprendizaje por transferencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones

Existen varios intentos en transformadores de visión para reducir la complejidad temporal cuadrática a complejidad temporal lineal de acuerdo con el aumento en el número de tokens. Los transformadores de imágenes de covarianza cruzada (XCiT) también son una de las técnicas utilizadas para abordar el problema. Sin embargo, a pesar de estos esfuerzos, el aumento en las dimensiones de los tokens sigue dando como resultado un crecimiento cuadrático en la complejidad temporal, y la dimensión es un parámetro clave para lograr un rendimiento de generalización superior. En este artículo, se propone un método novedoso para mejorar el rendimiento de generalización de los modelos XCiT sin aumentar las dimensiones de los tokens. Rediseñamos las capas de incrustación de consultas, claves y valores, como la incrustación no lineal separada (SNE), la incrustación no lineal parcialmente compartida (P-SNE) y la incrustación no lineal totalmente compartida (F-SNE). Finalmente, una estructura propuesta con diferentes configuraciones de tamaño de modelo logró , y en ImageNet-1k en comparación con , y adquiridos por los modelos XCiT originales, a saber, XCiT-N12, XCiT-T12 y XCiT-S12, respectivamente. Además, el modelo propuesto logró en experimentos de transferencia de aprendizaje, en promedio, para CIFAR-10, CIFAR-100, Stanford Cars y STL-10, lo cual es superior al modelo base de XCiT-S12 (). En particular, los modelos propuestos demostraron mejoras considerables en la tarea de detección fuera de distribución en comparación con los modelos XCiT originales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro