Un acelerador LSTM eficiente en recursos de alto rendimiento basado en lotes y dirigido por instrucciones en FPGA

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un acelerador LSTM eficiente en recursos de alto rendimiento basado en lotes y dirigido por instrucciones en FPGA

Autores: Mao, Ning; Yang, Haigang; Huang, Zhihong

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Un acelerador LSTM eficiente en recursos de alto rendimiento basado en lotes y dirigido por instrucciones en FPGA

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Memoria a largo plazo

Reconocimiento de voz

Acelerador LSTM

Plataforma FPGA

Unidad de multiplicación de matrices

Unidad de post-procesamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones

En los últimos años, la memoria a largo plazo de corto plazo (LSTM) se ha utilizado en muchas tareas de reconocimiento de voz, debido a su excelente rendimiento. Debido a la gran cantidad de cálculos y complejas dependencias de datos de LSTM, a menudo no es tan eficiente desplegarlo en la plataforma de matriz de compuerta programable en campo (FPGA). Este documento propone un acelerador LSTM, impulsado por un conjunto de instrucciones específico. El acelerador consta de una unidad de multiplicación de matrices y una unidad de postprocesamiento. La unidad de multiplicación de matrices utiliza un temporizado escalonado de lectura de datos para reducir el uso de registros. La unidad de postprocesamiento puede completar varios cálculos con solo una pequeña cantidad de cortes de procesamiento de señales digitales (DSP), a través de uso compartido de recursos, y al mismo tiempo, se reduce la huella de memoria, a través del diseño de flujo de datos bien diseñado. El acelerador se basa en lotes y es capaz de calcular datos de múltiples usuarios simultáneamente. Dado que el proceso de cálculo de LSTM se divide en una secuencia de instrucciones, es factible ejecutar redes LSTM multicapa, así como redes LSTM a gran escala. Los resultados experimentales muestran que nuestro acelerador puede lograr un rendimiento de 2036 GOPS con una precisión de datos de 16 bits, al tiempo que tiene una mayor utilización de hardware en comparación con trabajos anteriores.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro