Acelerador de transformador basado en matriz sistólica de alta frecuencia en matrices de compuertas programables en campo
Autores: Chen, Yonghao; Li, Tianrui; Chen, Xiaojie; Cai, Zhigang; Su, Tao
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Acelerador de transformador basado en matriz sistólica de alta frecuencia en matrices de compuertas programables en campo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Matriz sistólica
Aceleradores
FPGA
Modelos de transformador
Alta frecuencia
Metodología de diseño
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La matriz sístolica se utiliza frecuentemente en aceleradores para redes neuronales, incluidos los modelos Transformer que recientemente han logrado un progreso notable en el procesamiento del lenguaje natural (NLP) y la traducción automática. Debido a las limitaciones de las herramientas de EDA de FPGA (Diseño Electrónico de Arrays de Puertas Programables en Campo) y a las limitaciones de la metodología de diseño, los aceleradores de matriz sístolica existentes para implementación en FPGA a menudo no pueden lograr una alta frecuencia. En este trabajo, proponemos una matriz sístolica de alta frecuencia bien diseñada para un acelerador Transformer basado en FPGA, capaz de realizar el bloque de Atención Multi-Cabeza (MHA) y el bloque de Red de Avance de Posición (FFN), alcanzando 588 MHz y 474 MHz para diferentes tamaños de matriz, logrando una mejora de frecuencia de 1.8x y 1.5x en una placa Xilinx ZCU102, mientras se ahorran recursos drásticamente en comparación con trabajos recientes similares y empujando la utilización de cada segmento DSP a un nivel más alto. También proponemos un flujo de diseño semiautomático con herramientas generadoras de restricciones como una solución general para la implementación de matrices sístolicas de alta frecuencia basadas en FPGA.
Descripción
La matriz sístolica se utiliza frecuentemente en aceleradores para redes neuronales, incluidos los modelos Transformer que recientemente han logrado un progreso notable en el procesamiento del lenguaje natural (NLP) y la traducción automática. Debido a las limitaciones de las herramientas de EDA de FPGA (Diseño Electrónico de Arrays de Puertas Programables en Campo) y a las limitaciones de la metodología de diseño, los aceleradores de matriz sístolica existentes para implementación en FPGA a menudo no pueden lograr una alta frecuencia. En este trabajo, proponemos una matriz sístolica de alta frecuencia bien diseñada para un acelerador Transformer basado en FPGA, capaz de realizar el bloque de Atención Multi-Cabeza (MHA) y el bloque de Red de Avance de Posición (FFN), alcanzando 588 MHz y 474 MHz para diferentes tamaños de matriz, logrando una mejora de frecuencia de 1.8x y 1.5x en una placa Xilinx ZCU102, mientras se ahorran recursos drásticamente en comparación con trabajos recientes similares y empujando la utilización de cada segmento DSP a un nivel más alto. También proponemos un flujo de diseño semiautomático con herramientas generadoras de restricciones como una solución general para la implementación de matrices sístolicas de alta frecuencia basadas en FPGA.