Redes neuronales convolucionales solo con enteros con pesos de 4 bits y escalas de cuantificación de desplazamiento de bits a precisión completa
Autores: Vandersteegen, Maarten; Van Beeck, Kristof; Goedemé, Toon
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Redes neuronales convolucionales solo con enteros con pesos de 4 bits y escalas de cuantificación de desplazamiento de bits a precisión completa
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Redes neuronales
Cuantización
Compresión
Hardware integrado
Precisión
Potencia de dos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
La cuantificación de redes neuronales ha sido una de las técnicas más populares para comprimir modelos para plataformas de hardware integrado (IoT) con especificaciones de latencia, almacenamiento, ancho de banda de memoria y energía altamente restringidas. Limitar el número de bits por peso y activación ha sido el enfoque principal en la literatura. Para evitar una degradación importante de la precisión, los métodos de cuantificación comunes introducen factores de escala adicionales para adaptar los valores cuantificados a las diversas gamas de datos presentes en las redes neuronales de precisión completa (punto flotante). Estas escalas suelen mantenerse en alta precisión, lo que requiere que el motor de cálculo objetivo admita algunas multiplicaciones de alta precisión, lo cual no es deseable debido al mayor costo de hardware. Hasta ahora se ha invertido poco esfuerzo en tratar de evitar por completo los multiplicadores de alta precisión, especialmente en combinación con pesos de 4 bits. Este trabajo propone un nuevo esquema de cuantificación, basado en escalas de cuantificación de potencia de dos, que funciona de manera comparable a la cuantificación uniforme por canal con escalas de cuantificación de 32 bits de precisión completa cuando se utilizan solo pesos de 4 bits. Esto se logra mediante la adición de una tabla de búsqueda de baja precisión que traduce los pesos almacenados de 4 bits en pesos de 8 bits no uniformemente distribuidos para la computación interna. Todas nuestras CNNs de ImageNet cuantificadas lograron o incluso superaron la precisión Top-1 de sus contrapartes de precisión completa, con ResNet18 superando a su modelo de precisión completa en un 0.35%. Nuestro modelo MobileNetV2 logró un rendimiento de vanguardia con solo una ligera disminución en la precisión del 0.51%.
Descripción
La cuantificación de redes neuronales ha sido una de las técnicas más populares para comprimir modelos para plataformas de hardware integrado (IoT) con especificaciones de latencia, almacenamiento, ancho de banda de memoria y energía altamente restringidas. Limitar el número de bits por peso y activación ha sido el enfoque principal en la literatura. Para evitar una degradación importante de la precisión, los métodos de cuantificación comunes introducen factores de escala adicionales para adaptar los valores cuantificados a las diversas gamas de datos presentes en las redes neuronales de precisión completa (punto flotante). Estas escalas suelen mantenerse en alta precisión, lo que requiere que el motor de cálculo objetivo admita algunas multiplicaciones de alta precisión, lo cual no es deseable debido al mayor costo de hardware. Hasta ahora se ha invertido poco esfuerzo en tratar de evitar por completo los multiplicadores de alta precisión, especialmente en combinación con pesos de 4 bits. Este trabajo propone un nuevo esquema de cuantificación, basado en escalas de cuantificación de potencia de dos, que funciona de manera comparable a la cuantificación uniforme por canal con escalas de cuantificación de 32 bits de precisión completa cuando se utilizan solo pesos de 4 bits. Esto se logra mediante la adición de una tabla de búsqueda de baja precisión que traduce los pesos almacenados de 4 bits en pesos de 8 bits no uniformemente distribuidos para la computación interna. Todas nuestras CNNs de ImageNet cuantificadas lograron o incluso superaron la precisión Top-1 de sus contrapartes de precisión completa, con ResNet18 superando a su modelo de precisión completa en un 0.35%. Nuestro modelo MobileNetV2 logró un rendimiento de vanguardia con solo una ligera disminución en la precisión del 0.51%.