logo móvil
Contáctanos

Acelerando redes neuronales profundas mediante la combinación de matrices circulantes de bloques y pesos de baja precisión

Autores: Qin, Zidi; Zhu, Di; Zhu, Xingwei; Chen, Xuan; Shi, Yinghuan; Gao, Yang; Lu, Zhonghai; Shen, Qinghong; Li, Li; Pan, Hongbing

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Acelerando redes neuronales profundas mediante la combinación de matrices circulantes de bloques y pesos de baja precisión


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Redes neuronales
Capas totalmente conectadas
Enfoque de compresión
Matrices circulantes por bloques
Cuantificación de potencia de dos
Arquitectura de hardware

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 45

Citaciones: Sin citaciones


Descripción
Como ingrediente clave de las redes neuronales profundas (DNN), las capas totalmente conectadas (FC) son ampliamente utilizadas en diversas aplicaciones de inteligencia artificial. Sin embargo, hay muchos parámetros en las capas FC, por lo que el proceso eficiente de las capas FC está restringido por el ancho de banda de memoria. En este documento, proponemos un enfoque de compresión que combina la representación de pesos basada en matrices circulantes en bloque y la cuantificación de potencia de dos. Aplicar matrices circulantes en bloque en las capas FC puede reducir la complejidad de almacenamiento de a . Al cuantificar los pesos en potencias enteras de dos, las multiplicaciones en la referencia pueden ser reemplazadas por operaciones de desplazamiento y suma. Las memorias de los modelos para MNIST, CIFAR-10 e ImageNet pueden ser comprimidas en , y con una pérdida mínima de precisión, respectivamente. Luego se propone una arquitectura de hardware paralela configurable para procesar eficientemente las capas FC comprimidas. Sin multiplicadores, se utiliza un módulo de multiplicación de matriz-vector en bloque (B-MV) como núcleo de cálculo. La arquitectura es flexible para soportar capas FC de varios ratios de compresión con un tamaño pequeño. Simultáneamente, el acceso a memoria puede ser significativamente reducido mediante el uso de la arquitectura configurable. Los resultados de las mediciones muestran que el acelerador tiene una potencia de procesamiento de 409.6 GOPS, y logra una eficiencia energética de 5.3 TOPS/W a 800 MHz.

Otros recursos que podrían interesarte

Temas Virtualpro