Diseño de sistema en chip acelerador CNN de alta velocidad basado en un arreglo cíclico diagonal flexible
Autores: Lee, Dong-Yeong; Aliev, Hayotjon; Junaid, Muhammad; Park, Sang-Bo; Kim, Hyung-Won; Lee, Keon-Myung; Sim, Sang-Hoon
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Diseño de sistema en chip acelerador CNN de alta velocidad basado en un arreglo cíclico diagonal flexible
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Red neuronal convolucional
Acelerador
Tamaños de núcleo
YOLOv5
FPGA
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
Los últimos modelos de redes neuronales convolucionales (CNN) para la detección de objetos incluyen conexiones en capas complejas para procesar datos de inferencia. Cada capa utiliza diferentes tipos de modos de kernel, por lo que el hardware necesita soportar todos los modos de kernel a una velocidad optimizada. En este documento, proponemos un acelerador de CNN de alta velocidad y optimizado con matrices cíclicas diagonales flexibles (FDCA) que admiten la aceleración de redes CNN con varios tamaños de kernel y reducen significativamente el tiempo requerido para el procesamiento de inferencia. El acelerador utiliza cuatro FDCAs para calcular simultáneamente 16 canales de entrada y 8 canales de salida. Cada FDCA cuenta con una matriz sistólica de 4 x 8 que contiene un conjunto de elementos de procesamiento (PE) de 3 x 3 y está diseñada para manejar los tamaños de kernel más comúnmente utilizados. Para evaluar el acelerador de CNN propuesto, mapeamos el ampliamente utilizado modelo de CNN YOLOv5 y evaluamos el rendimiento de su implementación en la FPGA Zynq UltraScale+ MPSoC ZCU102. El diseño consume 249,357 celdas lógicas, 2304 bloques DSP y solo 567 KB de BRAM. En nuestra evaluación, el modelo YOLOv5n logra una precisión del 43.1% (mAP@0.5). Se ha implementado un acelerador prototipo utilizando la tecnología CMOS de 14 nm de Samsung. Alcanza 1.075 TOPS, un rendimiento máximo con una frecuencia de reloj de 400 MHz.
Descripción
Los últimos modelos de redes neuronales convolucionales (CNN) para la detección de objetos incluyen conexiones en capas complejas para procesar datos de inferencia. Cada capa utiliza diferentes tipos de modos de kernel, por lo que el hardware necesita soportar todos los modos de kernel a una velocidad optimizada. En este documento, proponemos un acelerador de CNN de alta velocidad y optimizado con matrices cíclicas diagonales flexibles (FDCA) que admiten la aceleración de redes CNN con varios tamaños de kernel y reducen significativamente el tiempo requerido para el procesamiento de inferencia. El acelerador utiliza cuatro FDCAs para calcular simultáneamente 16 canales de entrada y 8 canales de salida. Cada FDCA cuenta con una matriz sistólica de 4 x 8 que contiene un conjunto de elementos de procesamiento (PE) de 3 x 3 y está diseñada para manejar los tamaños de kernel más comúnmente utilizados. Para evaluar el acelerador de CNN propuesto, mapeamos el ampliamente utilizado modelo de CNN YOLOv5 y evaluamos el rendimiento de su implementación en la FPGA Zynq UltraScale+ MPSoC ZCU102. El diseño consume 249,357 celdas lógicas, 2304 bloques DSP y solo 567 KB de BRAM. En nuestra evaluación, el modelo YOLOv5n logra una precisión del 43.1% (mAP@0.5). Se ha implementado un acelerador prototipo utilizando la tecnología CMOS de 14 nm de Samsung. Alcanza 1.075 TOPS, un rendimiento máximo con una frecuencia de reloj de 400 MHz.