Diseño de un acelerador de entrenamiento eficiente en energía para redes neuronales convolucionales
Autores: Hong, JiUn; Arslan, Saad; Lee, TaeGeon; Kim, HyungWon
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Diseño de un acelerador de entrenamiento eficiente en energía para redes neuronales convolucionales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Red neuronal
Acelerador
Entrenamiento
CNN
FPGA
Energía
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
Para realizar técnicas de aprendizaje profundo, un tipo de red neuronal profunda (DNN) llamada redes neuronales convolucionales (CNN) es uno de los modelos más ampliamente utilizados para aplicaciones de reconocimiento de imágenes. Sin embargo, hay una creciente demanda de aceleradores de redes neuronales livianos y de bajo consumo de energía, no solo para inferencia sino también para el proceso de entrenamiento. En este documento, proponemos un acelerador de entrenamiento que proporciona baja potencia y tamaño de chip compacto dirigido a aplicaciones de computación móvil y de borde. Acelera para lograr el procesamiento en tiempo real tanto de la inferencia como del entrenamiento utilizando rutas de datos flotantes concurrentes. El acelerador propuesto puede ser controlado externamente y emplea recursos compartidos y un bloque de convolución-pooling integrado para lograr una baja área y un bajo consumo de energía. Implementamos el acelerador de entrenamiento propuesto en un FPGA (Field Programmable Gate Array) y evaluamos su rendimiento de entrenamiento utilizando un ejemplo de CNN MNIST en comparación con una PC con GPU (Unidad de Procesamiento Gráfico). Mientras que ambos métodos lograron una precisión de entrenamiento similar del 95.1%, el acelerador propuesto, cuando se implementó en un chip de silicio, redujo el consumo de energía en 480 veces en comparación con su contraparte. Además, al implementarse en un FPGA, se logró una reducción de energía de más de 4.5 veces en comparación con el acelerador de entrenamiento FPGA existente para el conjunto de datos MNIST. Por lo tanto, el acelerador propuesto es más adecuado para desplegarse en nodos móviles/de borde en comparación con los aceleradores de software y hardware existentes.
Descripción
Para realizar técnicas de aprendizaje profundo, un tipo de red neuronal profunda (DNN) llamada redes neuronales convolucionales (CNN) es uno de los modelos más ampliamente utilizados para aplicaciones de reconocimiento de imágenes. Sin embargo, hay una creciente demanda de aceleradores de redes neuronales livianos y de bajo consumo de energía, no solo para inferencia sino también para el proceso de entrenamiento. En este documento, proponemos un acelerador de entrenamiento que proporciona baja potencia y tamaño de chip compacto dirigido a aplicaciones de computación móvil y de borde. Acelera para lograr el procesamiento en tiempo real tanto de la inferencia como del entrenamiento utilizando rutas de datos flotantes concurrentes. El acelerador propuesto puede ser controlado externamente y emplea recursos compartidos y un bloque de convolución-pooling integrado para lograr una baja área y un bajo consumo de energía. Implementamos el acelerador de entrenamiento propuesto en un FPGA (Field Programmable Gate Array) y evaluamos su rendimiento de entrenamiento utilizando un ejemplo de CNN MNIST en comparación con una PC con GPU (Unidad de Procesamiento Gráfico). Mientras que ambos métodos lograron una precisión de entrenamiento similar del 95.1%, el acelerador propuesto, cuando se implementó en un chip de silicio, redujo el consumo de energía en 480 veces en comparación con su contraparte. Además, al implementarse en un FPGA, se logró una reducción de energía de más de 4.5 veces en comparación con el acelerador de entrenamiento FPGA existente para el conjunto de datos MNIST. Por lo tanto, el acelerador propuesto es más adecuado para desplegarse en nodos móviles/de borde en comparación con los aceleradores de software y hardware existentes.