Permlstm: una arquitectura aceleradora de LSTM de alta eficiencia energética
Autores: Zheng, Yong; Yang, Haigang; Jia, Yiping; Huang, Zhihong
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Permlstm: una arquitectura aceleradora de LSTM de alta eficiencia energética
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Poda
Cuantificación
Modelo LSTM
Desvanecimiento del gradiente
Modelo disperso
Eficiencia energética
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
La poda y la cuantificación son dos enfoques comúnmente utilizados para acelerar el modelo LSTM (Memoria a Corto y Largo Plazo). Sin embargo, la cuantificación lineal tradicional suele sufrir del problema de la desaparición del gradiente, y los métodos de poda existentes tienen el problema de producir una irregularidad no deseada en la dispersión o un gran sobrecosto de indexación. Para aliviar el problema de la desaparición del gradiente, este trabajo propuso un enfoque de cuantificación lineal normalizado, que primero normaliza los operandos regionalmente y luego los cuantifica en un rango local de mix-max. Para superar el problema de la irregularidad en la dispersión y el gran sobrecosto de indexación, este trabajo adopta las matrices de máscara diagonal de bloques permutados para generar el modelo disperso. Debido a que el modelo disperso es altamente regular, la posición de los pesos no nulos se puede obtener mediante un cálculo simple, evitando así el gran sobrecosto de indexación. Basándose en el modelo LSTM disperso generado a partir de las matrices de máscara diagonal de bloques permutados, este artículo también propuso un acelerador de alta eficiencia energética, PermLSTM, que explota de manera integral la dispersión de pesos, activaciones y productos con respecto a las multiplicaciones de matriz-vector, lo que resulta en una reducción del 55,1% en el consumo de energía. El acelerador se ha implementado en FPGAs Arria-10 funcionando a 150 MHz y ha logrado una eficiencia energética en comparación con los otros aceleradores LSTM basados en FPGA previamente reportados.
Descripción
La poda y la cuantificación son dos enfoques comúnmente utilizados para acelerar el modelo LSTM (Memoria a Corto y Largo Plazo). Sin embargo, la cuantificación lineal tradicional suele sufrir del problema de la desaparición del gradiente, y los métodos de poda existentes tienen el problema de producir una irregularidad no deseada en la dispersión o un gran sobrecosto de indexación. Para aliviar el problema de la desaparición del gradiente, este trabajo propuso un enfoque de cuantificación lineal normalizado, que primero normaliza los operandos regionalmente y luego los cuantifica en un rango local de mix-max. Para superar el problema de la irregularidad en la dispersión y el gran sobrecosto de indexación, este trabajo adopta las matrices de máscara diagonal de bloques permutados para generar el modelo disperso. Debido a que el modelo disperso es altamente regular, la posición de los pesos no nulos se puede obtener mediante un cálculo simple, evitando así el gran sobrecosto de indexación. Basándose en el modelo LSTM disperso generado a partir de las matrices de máscara diagonal de bloques permutados, este artículo también propuso un acelerador de alta eficiencia energética, PermLSTM, que explota de manera integral la dispersión de pesos, activaciones y productos con respecto a las multiplicaciones de matriz-vector, lo que resulta en una reducción del 55,1% en el consumo de energía. El acelerador se ha implementado en FPGAs Arria-10 funcionando a 150 MHz y ha logrado una eficiencia energética en comparación con los otros aceleradores LSTM basados en FPGA previamente reportados.