Un enfoque de diseño paralelo parametrizado para el mapeo eficiente de CNNs en FPGA
Autores: Mao, Ning; Yang, Haigang; Huang, Zhihong
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un enfoque de diseño paralelo parametrizado para el mapeo eficiente de CNNs en FPGA
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Redes neuronales convolucionales
FPGA
Paralelismo
Aceleradores de hardware
Visión por computadora
Algoritmo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
En los últimos años, las Redes Neuronales Convolucionales (CNNs) han sido ampliamente aplicadas a algunos sistemas de inteligencia artificial (IA) como la visión por computadora. Entre muchos aceleradores de hardware existentes, la FPGA es considerada como una plataforma adecuada para la implementación de CNNs debido a su alta eficiencia energética y reconfigurabilidad flexible. En este artículo, se propone un enfoque de diseño parametrizado para explorar el máximo paralelismo que podría ser posiblemente implementado al mapear un algoritmo de CNN en los recursos FPGA específicos. Cuatro tipos de paralelismo son empleados en nuestro diseño parametrizado para explotar completamente los recursos de procesamiento disponibles en la FPGA. Mientras tanto, se establece una biblioteca de hardware que consiste en un conjunto de módulos para acomodar varios modelos de CNN. Además, se propone un algoritmo para encontrar el nivel óptimo de paralelismo dedicado a una cantidad limitada de recursos. Como caso de estudio, el típico LeNet-5 se implementa en Xilinx Zynq7020. En comparación con los trabajos existentes que utilizan el flujo de diseño de síntesis de alto nivel, nuestro diseño obtiene un mayor FPS y una menor latencia bajo la premisa de utilizar menos LUTs y FFs.
Descripción
En los últimos años, las Redes Neuronales Convolucionales (CNNs) han sido ampliamente aplicadas a algunos sistemas de inteligencia artificial (IA) como la visión por computadora. Entre muchos aceleradores de hardware existentes, la FPGA es considerada como una plataforma adecuada para la implementación de CNNs debido a su alta eficiencia energética y reconfigurabilidad flexible. En este artículo, se propone un enfoque de diseño parametrizado para explorar el máximo paralelismo que podría ser posiblemente implementado al mapear un algoritmo de CNN en los recursos FPGA específicos. Cuatro tipos de paralelismo son empleados en nuestro diseño parametrizado para explotar completamente los recursos de procesamiento disponibles en la FPGA. Mientras tanto, se establece una biblioteca de hardware que consiste en un conjunto de módulos para acomodar varios modelos de CNN. Además, se propone un algoritmo para encontrar el nivel óptimo de paralelismo dedicado a una cantidad limitada de recursos. Como caso de estudio, el típico LeNet-5 se implementa en Xilinx Zynq7020. En comparación con los trabajos existentes que utilizan el flujo de diseño de síntesis de alto nivel, nuestro diseño obtiene un mayor FPS y una menor latencia bajo la premisa de utilizar menos LUTs y FFs.