Un diseño de acelerador de alto rendimiento y ultra bajo consumo de energía para algoritmos avanzados de aprendizaje profundo en una FPGA
Autores: Gundrapally, Achyuth; Shah, Yatrik Ashish; Alnatsheh, Nader; Choi, Kyuwon Ken
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un diseño de acelerador de alto rendimiento y ultra bajo consumo de energía para algoritmos avanzados de aprendizaje profundo en una FPGA
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Recurso limitado
Computación en el borde
Red neuronal convolucional
Sistemas FPGA
Diseño de acelerador
Eficiencia energética
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Este artículo aborda la creciente necesidad en escenarios de computación en el borde con recursos limitados de aceleradores de redes neuronales convolucionales (CNN) eficientes en energía en sistemas móviles de Field-Programmable Gate Array (FPGA). En particular, nos concentramos en la optimización del flujo de diseño a nivel de transferencia de registros (RTL) para mejorar la velocidad de programación y la eficiencia energética. Presentamos un diseño de acelerador reconfigurable optimizado para aplicaciones de detección de objetos basadas en CNN, especialmente adecuado para plataformas FPGA móviles como el Xilinx PYNQ-Z2. Al optimizar el módulo MAC utilizando el Clock Gating Mejorado (ECG), el acelerador también puede utilizar técnicas de bajo consumo energético como el Clock Gating Explícito Local (LECG) y el Clock Enable Explícito Local (LECE) en módulos de memoria para minimizar eficientemente el acceso a datos y la utilización de memoria. La evaluación utilizando ResNet-20 entrenado en el conjunto de datos CIFAR-10 demostró mejoras significativas en el consumo de eficiencia energética (hasta un 22%) y rendimiento. Los hallazgos resaltan la importancia de utilizar diferentes técnicas de optimización en múltiples módulos de hardware para lograr mejores resultados en aplicaciones del mundo real.
Descripción
Este artículo aborda la creciente necesidad en escenarios de computación en el borde con recursos limitados de aceleradores de redes neuronales convolucionales (CNN) eficientes en energía en sistemas móviles de Field-Programmable Gate Array (FPGA). En particular, nos concentramos en la optimización del flujo de diseño a nivel de transferencia de registros (RTL) para mejorar la velocidad de programación y la eficiencia energética. Presentamos un diseño de acelerador reconfigurable optimizado para aplicaciones de detección de objetos basadas en CNN, especialmente adecuado para plataformas FPGA móviles como el Xilinx PYNQ-Z2. Al optimizar el módulo MAC utilizando el Clock Gating Mejorado (ECG), el acelerador también puede utilizar técnicas de bajo consumo energético como el Clock Gating Explícito Local (LECG) y el Clock Enable Explícito Local (LECE) en módulos de memoria para minimizar eficientemente el acceso a datos y la utilización de memoria. La evaluación utilizando ResNet-20 entrenado en el conjunto de datos CIFAR-10 demostró mejoras significativas en el consumo de eficiencia energética (hasta un 22%) y rendimiento. Los hallazgos resaltan la importancia de utilizar diferentes técnicas de optimización en múltiples módulos de hardware para lograr mejores resultados en aplicaciones del mundo real.