logo móvil
Contáctanos

Mobilenets pueden ser comprimidos de forma lossily: compresión de redes neuronales para aceleradores integrados

Autores: Lim, Se-Min; Jun, Sang-Woo

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Mobilenets pueden ser comprimidos de forma lossily: compresión de redes neuronales para aceleradores integrados


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Red neuronal de cuantificación
Sistemas integrados
MobileNets
Variante ZFP
Compresión con pérdida
Plataforma FPGA

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
Aunque la cuantificación de redes neuronales es una tecnología imperativa para la eficiencia de cálculo y memoria de aceleradores de redes neuronales integrados, la cuantificación simple después del entrenamiento incurre en niveles inaceptables de degradación de precisión en algunos modelos importantes dirigidos a sistemas integrados, como MobileNets. Si bien el entrenamiento explícitamente consciente de la cuantificación o el re-entrenamiento después de la cuantificación a menudo pueden recuperar la precisión perdida, esto no siempre es posible o conveniente. Presentamos un enfoque alternativo para comprimir tales redes neuronales difíciles, utilizando una variante novedosa del algoritmo de compresión de punto flotante con pérdida ZFP para comprimir tanto los pesos del modelo como las activaciones entre capas y demostramos que puede implementarse eficientemente en una plataforma FPGA integrada. Nuestra variante ZFP, a la que llamamos ZFPe, está diseñada para una implementación eficiente en aceleradores integrados, como FPGAs, y requiere una fracción de recursos de chip por ancho de banda en comparación con los aceleradores de compresión con pérdida de vanguardia. La compresión ZFPe del modelo MobileNet V2 con un presupuesto de 8 bits por peso y activación resulta en una precisión significativamente mayor en comparación con la cuantificación simple de 8 bits después del entrenamiento y no muestra pérdida de precisión en comparación con un modelo no comprimido cuando se le da un presupuesto de 12 bits por valor de punto flotante. Para demostrar los beneficios de nuestro enfoque, implementamos un acelerador de red neuronal integrado en una plataforma de aceleración integrada real equipada con el FPGA Lattice ECP5-85F de bajo consumo y un chip SDRAM de 32 MB. Cada módulo ZFPe consume menos del 6% de LUTs mientras comprime o descomprime un valor por ciclo, requiriendo una fracción de los recursos en comparación con los aceleradores de compresión de vanguardia al eliminar por completo el cuello de botella de memoria de nuestro acelerador.

Otros recursos que podrían interesarte

Temas Virtualpro