Diseño de acelerador DNN de baja potencia escalado de voltaje en plataforma reconfigurable

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Diseño de acelerador DNN de baja potencia escalado de voltaje en plataforma reconfigurable

Autores: Paul, Rourab; Sarkar, Sreetama; Sau, Suman; Roy, Sanghamitra; Chakraborty, Koushik; Chakrabarti, Amlan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Diseño de acelerador DNN de baja potencia escalado de voltaje en plataforma reconfigurable

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

FPGAs

Redes neuronales profundas

TPUs

Escalado de voltaje

Bajo consumo

Matriz sístolica

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones

La emergencia exponencial de las matrices de compuertas programables en campo (FPGAs) ha acelerado la investigación sobre la implementación de hardware de Redes Neuronales Profundas (DNNs). Entre todos los procesadores de DNN, las arquitecturas específicas de dominio como la Unidad de Procesamiento Tensorial (TPU) de Google han superado a las GPU (Unidades de Procesamiento Gráfico) y CPUs (Unidades de Procesamiento Central) convencionales. Sin embargo, implementar TPUs de bajo consumo en hardware reconfigurable sigue siendo un desafío en este campo. El escalado de voltaje, un enfoque popular para el ahorro de energía, puede ser desafiante en FPGAs, ya que puede provocar fallas de temporización si no se implementa adecuadamente. Este trabajo presenta una implementación de FPGA de ultra bajo consumo de un TPU para aplicaciones en el borde. Dividimos el arreglo sístolico de un TPU en diferentes particiones de FPGA basadas en el valor de holgura mínima de diferentes rutas de diseño de Acumuladores de Multiplicadores (MACs). Cada partición utiliza diferentes voltajes de polarización de umbral cercano (NTC) para ejecutar sus núcleos de FPGA. El voltaje de polarización para cada partición se calcula aproximadamente mediante los esquemas estáticos propuestos. Sin embargo, la calibración adicional del voltaje de polarización se realiza mediante el esquema de tiempo de ejecución propuesto. Para superar la falla de temporización causada por NTC, los MACs con holgura mínima más alta se colocan en particiones de voltaje más bajo, mientras que los MACs con rutas de holgura mínima más baja se colocan en particiones de voltaje más alto. La arquitectura propuesta se implementa en una plataforma comercial, con FPGA de Xilinx y plataforma académica con FPGAs de 22 nm, 45 nm y 130 nm. Cualquier error de temporización causado por NTC puede ser detectado por el flip-flop Razor utilizado en cada MAC. El arreglo sístolico escalado de voltaje y particionado propuesto puede ahorrar entre un 3.1% y un 11.6% de potencia dinámica en herramientas, respectivamente, dependiendo de la tecnología de FPGA, el tamaño de la partición, el número de particiones y los voltajes de polarización. El rendimiento y precisión normalizados de los modelos de referencia que se ejecutan en nuestro TPU de bajo consumo son muy competitivos en comparación con la literatura existente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro