Compact DINO-ViT: reducción de características para Transformer visual
Autores: Chandranegara, Didih Rizki; Niedziela, Przemysaw; Cyganek, Bogusaw
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Compact DINO-ViT: reducción de características para Transformer visual
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Investigación
Características de imagen
Auto-destilación
Transformador de visión
PCA
NCA
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
La investigación ha estado en curso durante años para descubrir las características de imagen que permiten su mejor clasificación. Uno de los últimos desarrollos en esta área es el Self-Distillation with No Labels Vision Transformer-DINO-ViT. Sin embargo, incluso para una sola imagen, su volumen es significativo. Por lo tanto, en este artículo propusimos reducir sustancialmente su tamaño, utilizando dos métodos: Análisis de Componentes Principales y Análisis de Componentes de Vecindario. Nuestros métodos desarrollados, PCA-DINO y NCA-DINO, mostraron una reducción significativa en el volumen de las características, a menudo superando un orden de magnitud, manteniendo o reduciendo ligeramente la precisión de la clasificación, lo cual fue confirmado por numerosos experimentos. Además, evaluamos el método de Aproximación y Proyección de Manifold Uniforme (UMAP), mostrando la superioridad de los enfoques PCA y NCA. Nuestros experimentos que involucraron modificaciones en el tamaño de los parches, cabezas de atención e inserción de ruido en DINO-ViT demostraron que tanto PCA-DINO como NCA-DINO exhibieron una precisión confiable. Mientras que NCA-DINO es óptimo para aplicaciones de alto rendimiento a pesar de su mayor costo computacional, PCA-DINO ofrece una solución más rápida y eficiente en recursos, dependiendo de los requisitos específicos de la aplicación. El código de nuestro método está disponible en GitHub.
Descripción
La investigación ha estado en curso durante años para descubrir las características de imagen que permiten su mejor clasificación. Uno de los últimos desarrollos en esta área es el Self-Distillation with No Labels Vision Transformer-DINO-ViT. Sin embargo, incluso para una sola imagen, su volumen es significativo. Por lo tanto, en este artículo propusimos reducir sustancialmente su tamaño, utilizando dos métodos: Análisis de Componentes Principales y Análisis de Componentes de Vecindario. Nuestros métodos desarrollados, PCA-DINO y NCA-DINO, mostraron una reducción significativa en el volumen de las características, a menudo superando un orden de magnitud, manteniendo o reduciendo ligeramente la precisión de la clasificación, lo cual fue confirmado por numerosos experimentos. Además, evaluamos el método de Aproximación y Proyección de Manifold Uniforme (UMAP), mostrando la superioridad de los enfoques PCA y NCA. Nuestros experimentos que involucraron modificaciones en el tamaño de los parches, cabezas de atención e inserción de ruido en DINO-ViT demostraron que tanto PCA-DINO como NCA-DINO exhibieron una precisión confiable. Mientras que NCA-DINO es óptimo para aplicaciones de alto rendimiento a pesar de su mayor costo computacional, PCA-DINO ofrece una solución más rápida y eficiente en recursos, dependiendo de los requisitos específicos de la aplicación. El código de nuestro método está disponible en GitHub.