Un acelerador LSTM eficiente en recursos de alto rendimiento basado en lotes y dirigido por instrucciones en FPGA
Autores: Mao, Ning; Yang, Haigang; Huang, Zhihong
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un acelerador LSTM eficiente en recursos de alto rendimiento basado en lotes y dirigido por instrucciones en FPGA
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Memoria a largo plazo
Reconocimiento de voz
Acelerador LSTM
Plataforma FPGA
Unidad de multiplicación de matrices
Unidad de post-procesamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
En los últimos años, la memoria a largo plazo de corto plazo (LSTM) se ha utilizado en muchas tareas de reconocimiento de voz, debido a su excelente rendimiento. Debido a la gran cantidad de cálculos y complejas dependencias de datos de LSTM, a menudo no es tan eficiente desplegarlo en la plataforma de matriz de compuerta programable en campo (FPGA). Este documento propone un acelerador LSTM, impulsado por un conjunto de instrucciones específico. El acelerador consta de una unidad de multiplicación de matrices y una unidad de postprocesamiento. La unidad de multiplicación de matrices utiliza un temporizado escalonado de lectura de datos para reducir el uso de registros. La unidad de postprocesamiento puede completar varios cálculos con solo una pequeña cantidad de cortes de procesamiento de señales digitales (DSP), a través de uso compartido de recursos, y al mismo tiempo, se reduce la huella de memoria, a través del diseño de flujo de datos bien diseñado. El acelerador se basa en lotes y es capaz de calcular datos de múltiples usuarios simultáneamente. Dado que el proceso de cálculo de LSTM se divide en una secuencia de instrucciones, es factible ejecutar redes LSTM multicapa, así como redes LSTM a gran escala. Los resultados experimentales muestran que nuestro acelerador puede lograr un rendimiento de 2036 GOPS con una precisión de datos de 16 bits, al tiempo que tiene una mayor utilización de hardware en comparación con trabajos anteriores.
Descripción
En los últimos años, la memoria a largo plazo de corto plazo (LSTM) se ha utilizado en muchas tareas de reconocimiento de voz, debido a su excelente rendimiento. Debido a la gran cantidad de cálculos y complejas dependencias de datos de LSTM, a menudo no es tan eficiente desplegarlo en la plataforma de matriz de compuerta programable en campo (FPGA). Este documento propone un acelerador LSTM, impulsado por un conjunto de instrucciones específico. El acelerador consta de una unidad de multiplicación de matrices y una unidad de postprocesamiento. La unidad de multiplicación de matrices utiliza un temporizado escalonado de lectura de datos para reducir el uso de registros. La unidad de postprocesamiento puede completar varios cálculos con solo una pequeña cantidad de cortes de procesamiento de señales digitales (DSP), a través de uso compartido de recursos, y al mismo tiempo, se reduce la huella de memoria, a través del diseño de flujo de datos bien diseñado. El acelerador se basa en lotes y es capaz de calcular datos de múltiples usuarios simultáneamente. Dado que el proceso de cálculo de LSTM se divide en una secuencia de instrucciones, es factible ejecutar redes LSTM multicapa, así como redes LSTM a gran escala. Los resultados experimentales muestran que nuestro acelerador puede lograr un rendimiento de 2036 GOPS con una precisión de datos de 16 bits, al tiempo que tiene una mayor utilización de hardware en comparación con trabajos anteriores.