logo móvil
Contáctanos

MixMobileNet: una red móvil mixta para aplicaciones de visión en el borde

Autores: Meng, Yanju; Wu, Peng; Feng, Jian; Zhang, Xiaoming

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

MixMobileNet: una red móvil mixta para aplicaciones de visión en el borde


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Transformadores
Dispositivos de borde
MixMobileNet
ViTs
Redes neuronales convolucionales
Clasificación de imágenes

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones


Descripción
Actualmente, los transformadores de visión (ViTs) han igualado el rendimiento comparable a las redes neuronales convolucionales (CNNs). Sin embargo, las demandas computacionales del mecanismo de autoatención de los transformadores plantean desafíos para su aplicación en dispositivos periféricos. Por lo tanto, en este estudio, proponemos un modelo de red basado en transformadores llamado MixMobileNet. Similar al bloque ResNet, este modelo solo comprende un bloque MixMobile (MMb), que combina el sesgo inductivo local eficiente con las características de modelado explícitas de un transformador para lograr la fusión de las interacciones de características. Para , proponemos el codificador de agregación de características locales (LFAE), que incorpora una estructura de cuello de botella invertido (Partial-ConvPWconvPWconv) para la conectividad residual. En particular, la escala del kernel y del canal son adaptables, lo que reduce la redundancia de características en capas adyacentes y representa eficientemente parámetros. Para , proponemos el codificador de agregación de características globales (GFAE), que emplea una estrategia de agrupación y calcula la matriz de covarianza entre canales en lugar de las dimensiones espaciales, cambiando la complejidad computacional de cuadrática a lineal, y esto acelera la inferencia del modelo. Realizamos extensos experimentos de clasificación de imágenes, detección de objetos y segmentación para validar el rendimiento del modelo. Nuestro MixMobileNet-XXS/XS/S logra una precisión top-1 del 70.6%/75.1%/78.8% con 1.5 M/3.2 M/7.3 M parámetros y 0.2 G/0.5 G/1.2 G FLOPs en ImageNet-1K, superando a MobileViT-XXS/XS/S con una mejora de +1.6%/+0.4%/+0.4% con una reducción del -38.8%/-51.5%/-39.8% en FLOPs. Además, la combinación MixMobileNet-S de SSDLite y DeepLabv3 logra una precisión de 28.5 mAP/79.5 mIoU en COCO2017/VOC2012 con una computación más baja, demostrando el rendimiento competitivo de nuestro modelo ligero.

Otros recursos que podrían interesarte

Temas Virtualpro