VerSA: arquitectura de matriz sistólica versátil para multiplicaciones de matrices dispersas y densas
Autores: Seo, Juwon; Kong, Joonho
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
VerSA: arquitectura de matriz sistólica versátil para multiplicaciones de matrices dispersas y densas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Multiplicación de matrices
Red neuronal profunda
Aceleradores de hardware
VerSA
Arquitectura de matriz sistólica
Multiplicación de matrices dispersas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
Una parte clave de las aplicaciones modernas de redes neuronales profundas (DNN) es la multiplicación de matrices. A medida que las aplicaciones de DNN se vuelven más diversas, hay una necesidad de acelerar tanto las multiplicaciones de matrices densas como dispersas mediante hardware. Sin embargo, la mayoría de los aceleradores de hardware están diseñados para acelerar la multiplicación de matrices densas o dispersas. En este documento, proponemos VerSA, una arquitectura de matriz sistólica versátil para multiplicaciones de matrices densas y dispersas. VerSA emplea rutas intermedias y búferes SRAM entre las filas de la matriz sistólica (SA), lo que permite una terminación temprana en la multiplicación de matrices dispersas con un costo de rendimiento insignificante al ejecutar la multiplicación de matrices densas. Al ejecutar la multiplicación de matrices dispersas, VerSA 256 x 256 mejora el rendimiento (es decir, una inversa del tiempo de ejecución) y ahorra energía en un 1.21x-1.60x y 7.5-30.2%, respectivamente, en comparación con el SA convencional. Al ejecutar la multiplicación de matrices densas, VerSA resulta en solo un 0.52% de sobrecarga de rendimiento en comparación con el SA convencional.
Descripción
Una parte clave de las aplicaciones modernas de redes neuronales profundas (DNN) es la multiplicación de matrices. A medida que las aplicaciones de DNN se vuelven más diversas, hay una necesidad de acelerar tanto las multiplicaciones de matrices densas como dispersas mediante hardware. Sin embargo, la mayoría de los aceleradores de hardware están diseñados para acelerar la multiplicación de matrices densas o dispersas. En este documento, proponemos VerSA, una arquitectura de matriz sistólica versátil para multiplicaciones de matrices densas y dispersas. VerSA emplea rutas intermedias y búferes SRAM entre las filas de la matriz sistólica (SA), lo que permite una terminación temprana en la multiplicación de matrices dispersas con un costo de rendimiento insignificante al ejecutar la multiplicación de matrices densas. Al ejecutar la multiplicación de matrices dispersas, VerSA 256 x 256 mejora el rendimiento (es decir, una inversa del tiempo de ejecución) y ahorra energía en un 1.21x-1.60x y 7.5-30.2%, respectivamente, en comparación con el SA convencional. Al ejecutar la multiplicación de matrices densas, VerSA resulta en solo un 0.52% de sobrecarga de rendimiento en comparación con el SA convencional.