Diseño de sistema en chip acelerador CNN de alta velocidad basado en un arreglo cíclico diagonal flexible

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Diseño de sistema en chip acelerador CNN de alta velocidad basado en un arreglo cíclico diagonal flexible

Autores: Lee, Dong-Yeong; Aliev, Hayotjon; Junaid, Muhammad; Park, Sang-Bo; Kim, Hyung-Won; Lee, Keon-Myung; Sim, Sang-Hoon

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Diseño de sistema en chip acelerador CNN de alta velocidad basado en un arreglo cíclico diagonal flexible

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Red neuronal convolucional

Acelerador

Tamaños de núcleo

YOLOv5

FPGA

Rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 38

Citaciones: Sin citaciones

Los últimos modelos de redes neuronales convolucionales (CNN) para la detección de objetos incluyen conexiones en capas complejas para procesar datos de inferencia. Cada capa utiliza diferentes tipos de modos de kernel, por lo que el hardware necesita soportar todos los modos de kernel a una velocidad optimizada. En este documento, proponemos un acelerador de CNN de alta velocidad y optimizado con matrices cíclicas diagonales flexibles (FDCA) que admiten la aceleración de redes CNN con varios tamaños de kernel y reducen significativamente el tiempo requerido para el procesamiento de inferencia. El acelerador utiliza cuatro FDCAs para calcular simultáneamente 16 canales de entrada y 8 canales de salida. Cada FDCA cuenta con una matriz sistólica de 4 x 8 que contiene un conjunto de elementos de procesamiento (PE) de 3 x 3 y está diseñada para manejar los tamaños de kernel más comúnmente utilizados. Para evaluar el acelerador de CNN propuesto, mapeamos el ampliamente utilizado modelo de CNN YOLOv5 y evaluamos el rendimiento de su implementación en la FPGA Zynq UltraScale+ MPSoC ZCU102. El diseño consume 249,357 celdas lógicas, 2304 bloques DSP y solo 567 KB de BRAM. En nuestra evaluación, el modelo YOLOv5n logra una precisión del 43.1% (mAP@0.5). Se ha implementado un acelerador prototipo utilizando la tecnología CMOS de 14 nm de Samsung. Alcanza 1.075 TOPS, un rendimiento máximo con una frecuencia de reloj de 400 MHz.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro