logo móvil
Contáctanos

Un acelerador LSTM eficiente en recursos de alto rendimiento basado en lotes y dirigido por instrucciones en FPGA

Autores: Mao, Ning; Yang, Haigang; Huang, Zhihong

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un acelerador LSTM eficiente en recursos de alto rendimiento basado en lotes y dirigido por instrucciones en FPGA


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Memoria a largo plazo
Reconocimiento de voz
Acelerador LSTM
Plataforma FPGA
Unidad de multiplicación de matrices
Unidad de post-procesamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones


Descripción
En los últimos años, la memoria a largo plazo de corto plazo (LSTM) se ha utilizado en muchas tareas de reconocimiento de voz, debido a su excelente rendimiento. Debido a la gran cantidad de cálculos y complejas dependencias de datos de LSTM, a menudo no es tan eficiente desplegarlo en la plataforma de matriz de compuerta programable en campo (FPGA). Este documento propone un acelerador LSTM, impulsado por un conjunto de instrucciones específico. El acelerador consta de una unidad de multiplicación de matrices y una unidad de postprocesamiento. La unidad de multiplicación de matrices utiliza un temporizado escalonado de lectura de datos para reducir el uso de registros. La unidad de postprocesamiento puede completar varios cálculos con solo una pequeña cantidad de cortes de procesamiento de señales digitales (DSP), a través de uso compartido de recursos, y al mismo tiempo, se reduce la huella de memoria, a través del diseño de flujo de datos bien diseñado. El acelerador se basa en lotes y es capaz de calcular datos de múltiples usuarios simultáneamente. Dado que el proceso de cálculo de LSTM se divide en una secuencia de instrucciones, es factible ejecutar redes LSTM multicapa, así como redes LSTM a gran escala. Los resultados experimentales muestran que nuestro acelerador puede lograr un rendimiento de 2036 GOPS con una precisión de datos de 16 bits, al tiempo que tiene una mayor utilización de hardware en comparación con trabajos anteriores.

Otros recursos que podrían interesarte

Temas Virtualpro