MixMobileNet: una red móvil mixta para aplicaciones de visión en el borde
Autores: Meng, Yanju; Wu, Peng; Feng, Jian; Zhang, Xiaoming
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
MixMobileNet: una red móvil mixta para aplicaciones de visión en el borde
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Transformadores
Dispositivos de borde
MixMobileNet
ViTs
Redes neuronales convolucionales
Clasificación de imágenes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
Actualmente, los transformadores de visión (ViTs) han igualado el rendimiento comparable a las redes neuronales convolucionales (CNNs). Sin embargo, las demandas computacionales del mecanismo de autoatención de los transformadores plantean desafíos para su aplicación en dispositivos periféricos. Por lo tanto, en este estudio, proponemos un modelo de red basado en transformadores llamado MixMobileNet. Similar al bloque ResNet, este modelo solo comprende un bloque MixMobile (MMb), que combina el sesgo inductivo local eficiente con las características de modelado explícitas de un transformador para lograr la fusión de las interacciones de características. Para , proponemos el codificador de agregación de características locales (LFAE), que incorpora una estructura de cuello de botella invertido (Partial-ConvPWconvPWconv) para la conectividad residual. En particular, la escala del kernel y del canal son adaptables, lo que reduce la redundancia de características en capas adyacentes y representa eficientemente parámetros. Para , proponemos el codificador de agregación de características globales (GFAE), que emplea una estrategia de agrupación y calcula la matriz de covarianza entre canales en lugar de las dimensiones espaciales, cambiando la complejidad computacional de cuadrática a lineal, y esto acelera la inferencia del modelo. Realizamos extensos experimentos de clasificación de imágenes, detección de objetos y segmentación para validar el rendimiento del modelo. Nuestro MixMobileNet-XXS/XS/S logra una precisión top-1 del 70.6%/75.1%/78.8% con 1.5 M/3.2 M/7.3 M parámetros y 0.2 G/0.5 G/1.2 G FLOPs en ImageNet-1K, superando a MobileViT-XXS/XS/S con una mejora de +1.6%/+0.4%/+0.4% con una reducción del -38.8%/-51.5%/-39.8% en FLOPs. Además, la combinación MixMobileNet-S de SSDLite y DeepLabv3 logra una precisión de 28.5 mAP/79.5 mIoU en COCO2017/VOC2012 con una computación más baja, demostrando el rendimiento competitivo de nuestro modelo ligero.
Descripción
Actualmente, los transformadores de visión (ViTs) han igualado el rendimiento comparable a las redes neuronales convolucionales (CNNs). Sin embargo, las demandas computacionales del mecanismo de autoatención de los transformadores plantean desafíos para su aplicación en dispositivos periféricos. Por lo tanto, en este estudio, proponemos un modelo de red basado en transformadores llamado MixMobileNet. Similar al bloque ResNet, este modelo solo comprende un bloque MixMobile (MMb), que combina el sesgo inductivo local eficiente con las características de modelado explícitas de un transformador para lograr la fusión de las interacciones de características. Para , proponemos el codificador de agregación de características locales (LFAE), que incorpora una estructura de cuello de botella invertido (Partial-ConvPWconvPWconv) para la conectividad residual. En particular, la escala del kernel y del canal son adaptables, lo que reduce la redundancia de características en capas adyacentes y representa eficientemente parámetros. Para , proponemos el codificador de agregación de características globales (GFAE), que emplea una estrategia de agrupación y calcula la matriz de covarianza entre canales en lugar de las dimensiones espaciales, cambiando la complejidad computacional de cuadrática a lineal, y esto acelera la inferencia del modelo. Realizamos extensos experimentos de clasificación de imágenes, detección de objetos y segmentación para validar el rendimiento del modelo. Nuestro MixMobileNet-XXS/XS/S logra una precisión top-1 del 70.6%/75.1%/78.8% con 1.5 M/3.2 M/7.3 M parámetros y 0.2 G/0.5 G/1.2 G FLOPs en ImageNet-1K, superando a MobileViT-XXS/XS/S con una mejora de +1.6%/+0.4%/+0.4% con una reducción del -38.8%/-51.5%/-39.8% en FLOPs. Además, la combinación MixMobileNet-S de SSDLite y DeepLabv3 logra una precisión de 28.5 mAP/79.5 mIoU en COCO2017/VOC2012 con una computación más baja, demostrando el rendimiento competitivo de nuestro modelo ligero.