logo móvil
Contáctanos

Diseño de sistema en chip acelerador CNN de alta velocidad basado en un arreglo cíclico diagonal flexible

Autores: Lee, Dong-Yeong; Aliev, Hayotjon; Junaid, Muhammad; Park, Sang-Bo; Kim, Hyung-Won; Lee, Keon-Myung; Sim, Sang-Hoon

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Diseño de sistema en chip acelerador CNN de alta velocidad basado en un arreglo cíclico diagonal flexible


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Red neuronal convolucional
Acelerador
Tamaños de núcleo
YOLOv5
FPGA
Rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 38

Citaciones: Sin citaciones


Descripción
Los últimos modelos de redes neuronales convolucionales (CNN) para la detección de objetos incluyen conexiones en capas complejas para procesar datos de inferencia. Cada capa utiliza diferentes tipos de modos de kernel, por lo que el hardware necesita soportar todos los modos de kernel a una velocidad optimizada. En este documento, proponemos un acelerador de CNN de alta velocidad y optimizado con matrices cíclicas diagonales flexibles (FDCA) que admiten la aceleración de redes CNN con varios tamaños de kernel y reducen significativamente el tiempo requerido para el procesamiento de inferencia. El acelerador utiliza cuatro FDCAs para calcular simultáneamente 16 canales de entrada y 8 canales de salida. Cada FDCA cuenta con una matriz sistólica de 4 x 8 que contiene un conjunto de elementos de procesamiento (PE) de 3 x 3 y está diseñada para manejar los tamaños de kernel más comúnmente utilizados. Para evaluar el acelerador de CNN propuesto, mapeamos el ampliamente utilizado modelo de CNN YOLOv5 y evaluamos el rendimiento de su implementación en la FPGA Zynq UltraScale+ MPSoC ZCU102. El diseño consume 249,357 celdas lógicas, 2304 bloques DSP y solo 567 KB de BRAM. En nuestra evaluación, el modelo YOLOv5n logra una precisión del 43.1% (mAP@0.5). Se ha implementado un acelerador prototipo utilizando la tecnología CMOS de 14 nm de Samsung. Alcanza 1.075 TOPS, un rendimiento máximo con una frecuencia de reloj de 400 MHz.

Otros recursos que podrían interesarte

Temas Virtualpro