Acelerando redes neuronales profundas mediante la combinación de matrices circulantes de bloques y pesos de baja precisión
Autores: Qin, Zidi; Zhu, Di; Zhu, Xingwei; Chen, Xuan; Shi, Yinghuan; Gao, Yang; Lu, Zhonghai; Shen, Qinghong; Li, Li; Pan, Hongbing
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Acelerando redes neuronales profundas mediante la combinación de matrices circulantes de bloques y pesos de baja precisión
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Redes neuronales
Capas totalmente conectadas
Enfoque de compresión
Matrices circulantes por bloques
Cuantificación de potencia de dos
Arquitectura de hardware
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 45
Citaciones: Sin citaciones
Como ingrediente clave de las redes neuronales profundas (DNN), las capas totalmente conectadas (FC) son ampliamente utilizadas en diversas aplicaciones de inteligencia artificial. Sin embargo, hay muchos parámetros en las capas FC, por lo que el proceso eficiente de las capas FC está restringido por el ancho de banda de memoria. En este documento, proponemos un enfoque de compresión que combina la representación de pesos basada en matrices circulantes en bloque y la cuantificación de potencia de dos. Aplicar matrices circulantes en bloque en las capas FC puede reducir la complejidad de almacenamiento de a . Al cuantificar los pesos en potencias enteras de dos, las multiplicaciones en la referencia pueden ser reemplazadas por operaciones de desplazamiento y suma. Las memorias de los modelos para MNIST, CIFAR-10 e ImageNet pueden ser comprimidas en , y con una pérdida mínima de precisión, respectivamente. Luego se propone una arquitectura de hardware paralela configurable para procesar eficientemente las capas FC comprimidas. Sin multiplicadores, se utiliza un módulo de multiplicación de matriz-vector en bloque (B-MV) como núcleo de cálculo. La arquitectura es flexible para soportar capas FC de varios ratios de compresión con un tamaño pequeño. Simultáneamente, el acceso a memoria puede ser significativamente reducido mediante el uso de la arquitectura configurable. Los resultados de las mediciones muestran que el acelerador tiene una potencia de procesamiento de 409.6 GOPS, y logra una eficiencia energética de 5.3 TOPS/W a 800 MHz.
Descripción
Como ingrediente clave de las redes neuronales profundas (DNN), las capas totalmente conectadas (FC) son ampliamente utilizadas en diversas aplicaciones de inteligencia artificial. Sin embargo, hay muchos parámetros en las capas FC, por lo que el proceso eficiente de las capas FC está restringido por el ancho de banda de memoria. En este documento, proponemos un enfoque de compresión que combina la representación de pesos basada en matrices circulantes en bloque y la cuantificación de potencia de dos. Aplicar matrices circulantes en bloque en las capas FC puede reducir la complejidad de almacenamiento de a . Al cuantificar los pesos en potencias enteras de dos, las multiplicaciones en la referencia pueden ser reemplazadas por operaciones de desplazamiento y suma. Las memorias de los modelos para MNIST, CIFAR-10 e ImageNet pueden ser comprimidas en , y con una pérdida mínima de precisión, respectivamente. Luego se propone una arquitectura de hardware paralela configurable para procesar eficientemente las capas FC comprimidas. Sin multiplicadores, se utiliza un módulo de multiplicación de matriz-vector en bloque (B-MV) como núcleo de cálculo. La arquitectura es flexible para soportar capas FC de varios ratios de compresión con un tamaño pequeño. Simultáneamente, el acceso a memoria puede ser significativamente reducido mediante el uso de la arquitectura configurable. Los resultados de las mediciones muestran que el acelerador tiene una potencia de procesamiento de 409.6 GOPS, y logra una eficiencia energética de 5.3 TOPS/W a 800 MHz.