MixMobileNet: una red móvil mixta para aplicaciones de visión en el borde

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

MixMobileNet: una red móvil mixta para aplicaciones de visión en el borde

Autores: Meng, Yanju; Wu, Peng; Feng, Jian; Zhang, Xiaoming

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

MixMobileNet: una red móvil mixta para aplicaciones de visión en el borde

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Transformadores

Dispositivos de borde

MixMobileNet

ViTs

Redes neuronales convolucionales

Clasificación de imágenes

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones

Actualmente, los transformadores de visión (ViTs) han igualado el rendimiento comparable a las redes neuronales convolucionales (CNNs). Sin embargo, las demandas computacionales del mecanismo de autoatención de los transformadores plantean desafíos para su aplicación en dispositivos periféricos. Por lo tanto, en este estudio, proponemos un modelo de red basado en transformadores llamado MixMobileNet. Similar al bloque ResNet, este modelo solo comprende un bloque MixMobile (MMb), que combina el sesgo inductivo local eficiente con las características de modelado explícitas de un transformador para lograr la fusión de las interacciones de características. Para , proponemos el codificador de agregación de características locales (LFAE), que incorpora una estructura de cuello de botella invertido (Partial-ConvPWconvPWconv) para la conectividad residual. En particular, la escala del kernel y del canal son adaptables, lo que reduce la redundancia de características en capas adyacentes y representa eficientemente parámetros. Para , proponemos el codificador de agregación de características globales (GFAE), que emplea una estrategia de agrupación y calcula la matriz de covarianza entre canales en lugar de las dimensiones espaciales, cambiando la complejidad computacional de cuadrática a lineal, y esto acelera la inferencia del modelo. Realizamos extensos experimentos de clasificación de imágenes, detección de objetos y segmentación para validar el rendimiento del modelo. Nuestro MixMobileNet-XXS/XS/S logra una precisión top-1 del 70.6%/75.1%/78.8% con 1.5 M/3.2 M/7.3 M parámetros y 0.2 G/0.5 G/1.2 G FLOPs en ImageNet-1K, superando a MobileViT-XXS/XS/S con una mejora de +1.6%/+0.4%/+0.4% con una reducción del -38.8%/-51.5%/-39.8% en FLOPs. Además, la combinación MixMobileNet-S de SSDLite y DeepLabv3 logra una precisión de 28.5 mAP/79.5 mIoU en COCO2017/VOC2012 con una computación más baja, demostrando el rendimiento competitivo de nuestro modelo ligero.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro