Diseño de acelerador DNN de baja potencia escalado de voltaje en plataforma reconfigurable
Autores: Paul, Rourab; Sarkar, Sreetama; Sau, Suman; Roy, Sanghamitra; Chakraborty, Koushik; Chakrabarti, Amlan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Diseño de acelerador DNN de baja potencia escalado de voltaje en plataforma reconfigurable
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
FPGAs
Redes neuronales profundas
TPUs
Escalado de voltaje
Bajo consumo
Matriz sístolica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
La emergencia exponencial de las matrices de compuertas programables en campo (FPGAs) ha acelerado la investigación sobre la implementación de hardware de Redes Neuronales Profundas (DNNs). Entre todos los procesadores de DNN, las arquitecturas específicas de dominio como la Unidad de Procesamiento Tensorial (TPU) de Google han superado a las GPU (Unidades de Procesamiento Gráfico) y CPUs (Unidades de Procesamiento Central) convencionales. Sin embargo, implementar TPUs de bajo consumo en hardware reconfigurable sigue siendo un desafío en este campo. El escalado de voltaje, un enfoque popular para el ahorro de energía, puede ser desafiante en FPGAs, ya que puede provocar fallas de temporización si no se implementa adecuadamente. Este trabajo presenta una implementación de FPGA de ultra bajo consumo de un TPU para aplicaciones en el borde. Dividimos el arreglo sístolico de un TPU en diferentes particiones de FPGA basadas en el valor de holgura mínima de diferentes rutas de diseño de Acumuladores de Multiplicadores (MACs). Cada partición utiliza diferentes voltajes de polarización de umbral cercano (NTC) para ejecutar sus núcleos de FPGA. El voltaje de polarización para cada partición se calcula aproximadamente mediante los esquemas estáticos propuestos. Sin embargo, la calibración adicional del voltaje de polarización se realiza mediante el esquema de tiempo de ejecución propuesto. Para superar la falla de temporización causada por NTC, los MACs con holgura mínima más alta se colocan en particiones de voltaje más bajo, mientras que los MACs con rutas de holgura mínima más baja se colocan en particiones de voltaje más alto. La arquitectura propuesta se implementa en una plataforma comercial, con FPGA de Xilinx y plataforma académica con FPGAs de 22 nm, 45 nm y 130 nm. Cualquier error de temporización causado por NTC puede ser detectado por el flip-flop Razor utilizado en cada MAC. El arreglo sístolico escalado de voltaje y particionado propuesto puede ahorrar entre un 3.1% y un 11.6% de potencia dinámica en herramientas, respectivamente, dependiendo de la tecnología de FPGA, el tamaño de la partición, el número de particiones y los voltajes de polarización. El rendimiento y precisión normalizados de los modelos de referencia que se ejecutan en nuestro TPU de bajo consumo son muy competitivos en comparación con la literatura existente.
Descripción
La emergencia exponencial de las matrices de compuertas programables en campo (FPGAs) ha acelerado la investigación sobre la implementación de hardware de Redes Neuronales Profundas (DNNs). Entre todos los procesadores de DNN, las arquitecturas específicas de dominio como la Unidad de Procesamiento Tensorial (TPU) de Google han superado a las GPU (Unidades de Procesamiento Gráfico) y CPUs (Unidades de Procesamiento Central) convencionales. Sin embargo, implementar TPUs de bajo consumo en hardware reconfigurable sigue siendo un desafío en este campo. El escalado de voltaje, un enfoque popular para el ahorro de energía, puede ser desafiante en FPGAs, ya que puede provocar fallas de temporización si no se implementa adecuadamente. Este trabajo presenta una implementación de FPGA de ultra bajo consumo de un TPU para aplicaciones en el borde. Dividimos el arreglo sístolico de un TPU en diferentes particiones de FPGA basadas en el valor de holgura mínima de diferentes rutas de diseño de Acumuladores de Multiplicadores (MACs). Cada partición utiliza diferentes voltajes de polarización de umbral cercano (NTC) para ejecutar sus núcleos de FPGA. El voltaje de polarización para cada partición se calcula aproximadamente mediante los esquemas estáticos propuestos. Sin embargo, la calibración adicional del voltaje de polarización se realiza mediante el esquema de tiempo de ejecución propuesto. Para superar la falla de temporización causada por NTC, los MACs con holgura mínima más alta se colocan en particiones de voltaje más bajo, mientras que los MACs con rutas de holgura mínima más baja se colocan en particiones de voltaje más alto. La arquitectura propuesta se implementa en una plataforma comercial, con FPGA de Xilinx y plataforma académica con FPGAs de 22 nm, 45 nm y 130 nm. Cualquier error de temporización causado por NTC puede ser detectado por el flip-flop Razor utilizado en cada MAC. El arreglo sístolico escalado de voltaje y particionado propuesto puede ahorrar entre un 3.1% y un 11.6% de potencia dinámica en herramientas, respectivamente, dependiendo de la tecnología de FPGA, el tamaño de la partición, el número de particiones y los voltajes de polarización. El rendimiento y precisión normalizados de los modelos de referencia que se ejecutan en nuestro TPU de bajo consumo son muy competitivos en comparación con la literatura existente.