Mobilenets pueden ser comprimidos de forma lossily: compresión de redes neuronales para aceleradores integrados
Autores: Lim, Se-Min; Jun, Sang-Woo
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Mobilenets pueden ser comprimidos de forma lossily: compresión de redes neuronales para aceleradores integrados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Red neuronal de cuantificación
Sistemas integrados
MobileNets
Variante ZFP
Compresión con pérdida
Plataforma FPGA
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Aunque la cuantificación de redes neuronales es una tecnología imperativa para la eficiencia de cálculo y memoria de aceleradores de redes neuronales integrados, la cuantificación simple después del entrenamiento incurre en niveles inaceptables de degradación de precisión en algunos modelos importantes dirigidos a sistemas integrados, como MobileNets. Si bien el entrenamiento explícitamente consciente de la cuantificación o el re-entrenamiento después de la cuantificación a menudo pueden recuperar la precisión perdida, esto no siempre es posible o conveniente. Presentamos un enfoque alternativo para comprimir tales redes neuronales difíciles, utilizando una variante novedosa del algoritmo de compresión de punto flotante con pérdida ZFP para comprimir tanto los pesos del modelo como las activaciones entre capas y demostramos que puede implementarse eficientemente en una plataforma FPGA integrada. Nuestra variante ZFP, a la que llamamos ZFPe, está diseñada para una implementación eficiente en aceleradores integrados, como FPGAs, y requiere una fracción de recursos de chip por ancho de banda en comparación con los aceleradores de compresión con pérdida de vanguardia. La compresión ZFPe del modelo MobileNet V2 con un presupuesto de 8 bits por peso y activación resulta en una precisión significativamente mayor en comparación con la cuantificación simple de 8 bits después del entrenamiento y no muestra pérdida de precisión en comparación con un modelo no comprimido cuando se le da un presupuesto de 12 bits por valor de punto flotante. Para demostrar los beneficios de nuestro enfoque, implementamos un acelerador de red neuronal integrado en una plataforma de aceleración integrada real equipada con el FPGA Lattice ECP5-85F de bajo consumo y un chip SDRAM de 32 MB. Cada módulo ZFPe consume menos del 6% de LUTs mientras comprime o descomprime un valor por ciclo, requiriendo una fracción de los recursos en comparación con los aceleradores de compresión de vanguardia al eliminar por completo el cuello de botella de memoria de nuestro acelerador.
Descripción
Aunque la cuantificación de redes neuronales es una tecnología imperativa para la eficiencia de cálculo y memoria de aceleradores de redes neuronales integrados, la cuantificación simple después del entrenamiento incurre en niveles inaceptables de degradación de precisión en algunos modelos importantes dirigidos a sistemas integrados, como MobileNets. Si bien el entrenamiento explícitamente consciente de la cuantificación o el re-entrenamiento después de la cuantificación a menudo pueden recuperar la precisión perdida, esto no siempre es posible o conveniente. Presentamos un enfoque alternativo para comprimir tales redes neuronales difíciles, utilizando una variante novedosa del algoritmo de compresión de punto flotante con pérdida ZFP para comprimir tanto los pesos del modelo como las activaciones entre capas y demostramos que puede implementarse eficientemente en una plataforma FPGA integrada. Nuestra variante ZFP, a la que llamamos ZFPe, está diseñada para una implementación eficiente en aceleradores integrados, como FPGAs, y requiere una fracción de recursos de chip por ancho de banda en comparación con los aceleradores de compresión con pérdida de vanguardia. La compresión ZFPe del modelo MobileNet V2 con un presupuesto de 8 bits por peso y activación resulta en una precisión significativamente mayor en comparación con la cuantificación simple de 8 bits después del entrenamiento y no muestra pérdida de precisión en comparación con un modelo no comprimido cuando se le da un presupuesto de 12 bits por valor de punto flotante. Para demostrar los beneficios de nuestro enfoque, implementamos un acelerador de red neuronal integrado en una plataforma de aceleración integrada real equipada con el FPGA Lattice ECP5-85F de bajo consumo y un chip SDRAM de 32 MB. Cada módulo ZFPe consume menos del 6% de LUTs mientras comprime o descomprime un valor por ciclo, requiriendo una fracción de los recursos en comparación con los aceleradores de compresión de vanguardia al eliminar por completo el cuello de botella de memoria de nuestro acelerador.