logo móvil
Contáctanos

Redes neuronales convolucionales solo con enteros con pesos de 4 bits y escalas de cuantificación de desplazamiento de bits a precisión completa

Autores: Vandersteegen, Maarten; Van Beeck, Kristof; Goedemé, Toon

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Redes neuronales convolucionales solo con enteros con pesos de 4 bits y escalas de cuantificación de desplazamiento de bits a precisión completa


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Redes neuronales
Cuantización
Compresión
Hardware integrado
Precisión
Potencia de dos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
La cuantificación de redes neuronales ha sido una de las técnicas más populares para comprimir modelos para plataformas de hardware integrado (IoT) con especificaciones de latencia, almacenamiento, ancho de banda de memoria y energía altamente restringidas. Limitar el número de bits por peso y activación ha sido el enfoque principal en la literatura. Para evitar una degradación importante de la precisión, los métodos de cuantificación comunes introducen factores de escala adicionales para adaptar los valores cuantificados a las diversas gamas de datos presentes en las redes neuronales de precisión completa (punto flotante). Estas escalas suelen mantenerse en alta precisión, lo que requiere que el motor de cálculo objetivo admita algunas multiplicaciones de alta precisión, lo cual no es deseable debido al mayor costo de hardware. Hasta ahora se ha invertido poco esfuerzo en tratar de evitar por completo los multiplicadores de alta precisión, especialmente en combinación con pesos de 4 bits. Este trabajo propone un nuevo esquema de cuantificación, basado en escalas de cuantificación de potencia de dos, que funciona de manera comparable a la cuantificación uniforme por canal con escalas de cuantificación de 32 bits de precisión completa cuando se utilizan solo pesos de 4 bits. Esto se logra mediante la adición de una tabla de búsqueda de baja precisión que traduce los pesos almacenados de 4 bits en pesos de 8 bits no uniformemente distribuidos para la computación interna. Todas nuestras CNNs de ImageNet cuantificadas lograron o incluso superaron la precisión Top-1 de sus contrapartes de precisión completa, con ResNet18 superando a su modelo de precisión completa en un 0.35%. Nuestro modelo MobileNetV2 logró un rendimiento de vanguardia con solo una ligera disminución en la precisión del 0.51%.

Otros recursos que podrían interesarte

Temas Virtualpro