Acelerando redes neuronales profundas mediante la combinación de matrices circulantes de bloques y pesos de baja precisión

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Acelerando redes neuronales profundas mediante la combinación de matrices circulantes de bloques y pesos de baja precisión

Autores: Qin, Zidi; Zhu, Di; Zhu, Xingwei; Chen, Xuan; Shi, Yinghuan; Gao, Yang; Lu, Zhonghai; Shen, Qinghong; Li, Li; Pan, Hongbing

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico

2019

Acelerando redes neuronales profundas mediante la combinación de matrices circulantes de bloques y pesos de baja precisión

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Redes neuronales

Capas totalmente conectadas

Enfoque de compresión

Matrices circulantes por bloques

Cuantificación de potencia de dos

Arquitectura de hardware

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 45

Citaciones: Sin citaciones

Como ingrediente clave de las redes neuronales profundas (DNN), las capas totalmente conectadas (FC) son ampliamente utilizadas en diversas aplicaciones de inteligencia artificial. Sin embargo, hay muchos parámetros en las capas FC, por lo que el proceso eficiente de las capas FC está restringido por el ancho de banda de memoria. En este documento, proponemos un enfoque de compresión que combina la representación de pesos basada en matrices circulantes en bloque y la cuantificación de potencia de dos. Aplicar matrices circulantes en bloque en las capas FC puede reducir la complejidad de almacenamiento de a . Al cuantificar los pesos en potencias enteras de dos, las multiplicaciones en la referencia pueden ser reemplazadas por operaciones de desplazamiento y suma. Las memorias de los modelos para MNIST, CIFAR-10 e ImageNet pueden ser comprimidas en , y con una pérdida mínima de precisión, respectivamente. Luego se propone una arquitectura de hardware paralela configurable para procesar eficientemente las capas FC comprimidas. Sin multiplicadores, se utiliza un módulo de multiplicación de matriz-vector en bloque (B-MV) como núcleo de cálculo. La arquitectura es flexible para soportar capas FC de varios ratios de compresión con un tamaño pequeño. Simultáneamente, el acceso a memoria puede ser significativamente reducido mediante el uso de la arquitectura configurable. Los resultados de las mediciones muestran que el acelerador tiene una potencia de procesamiento de 409.6 GOPS, y logra una eficiencia energética de 5.3 TOPS/W a 800 MHz.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro