Reduciendo el costo computacional en MobileViT para modelos orientados a Edge a través de la fusión de tokens
Autores: Yasukura, Mitsuhiko; Yoshioka, Michifumi; Inoue, Katsufumi
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Reduciendo el costo computacional en MobileViT para modelos orientados a Edge a través de la fusión de tokens
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Transformadores
Cnns
Mobilevit
Eficiencia computacional
Fusión de tokens
Clasificación de imágenes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Nos enfocamos en desarrollar un modelo ligero para dispositivos con recursos limitados, basado en MobileViT, un modelo híbrido que combina las fortalezas de los Transformers y las CNN para equilibrar alta precisión y eficiencia computacional para la clasificación de imágenes. Los Transformers, aunque efectivos para capturar información global, a menudo tienen costos computacionales más altos que las CNN debido a la complejidad de su mecanismo de autoatención. Para abordar esto, introducimos la técnica de Fusión de Tokens (ToMe) en MobileViT para reducir los costos computacionales. Sin embargo, debido a que el número de tokens cambia durante la fusión, ToMe no se puede aplicar directamente a MobileViT sin ajustes. Proponemos métodos simples, específicamente remodelación de características y eliminación de conexiones de salto, para resolver este problema. Además, realizamos ajustes en la estructura de MobileViT para apoyar mejor la aplicación de ToMe. Nuestro enfoque mejora la eficiencia de inferencia manteniendo un nivel competitivo de precisión. Los modelos resultantes logran un equilibrio entre rendimiento y velocidad computacional, ofreciendo una solución práctica para arquitecturas híbridas. Este trabajo muestra el potencial de las técnicas basadas en ToMe para ampliar la gama de opciones de modelos ligeros, atendiendo a diversos requisitos de aplicación.
Descripción
Nos enfocamos en desarrollar un modelo ligero para dispositivos con recursos limitados, basado en MobileViT, un modelo híbrido que combina las fortalezas de los Transformers y las CNN para equilibrar alta precisión y eficiencia computacional para la clasificación de imágenes. Los Transformers, aunque efectivos para capturar información global, a menudo tienen costos computacionales más altos que las CNN debido a la complejidad de su mecanismo de autoatención. Para abordar esto, introducimos la técnica de Fusión de Tokens (ToMe) en MobileViT para reducir los costos computacionales. Sin embargo, debido a que el número de tokens cambia durante la fusión, ToMe no se puede aplicar directamente a MobileViT sin ajustes. Proponemos métodos simples, específicamente remodelación de características y eliminación de conexiones de salto, para resolver este problema. Además, realizamos ajustes en la estructura de MobileViT para apoyar mejor la aplicación de ToMe. Nuestro enfoque mejora la eficiencia de inferencia manteniendo un nivel competitivo de precisión. Los modelos resultantes logran un equilibrio entre rendimiento y velocidad computacional, ofreciendo una solución práctica para arquitecturas híbridas. Este trabajo muestra el potencial de las técnicas basadas en ToMe para ampliar la gama de opciones de modelos ligeros, atendiendo a diversos requisitos de aplicación.