Optimización eficiente de recursos para acelerador de convolución basado en FPGA
Autores: Ma, Yanhua; Xu, Qican; Song, Zerui
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Optimización eficiente de recursos para acelerador de convolución basado en FPGA
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Convolución
Acelerador de hardware basado en FPGA
Multiplicadores aproximados
Multiplicadores precisos optimizados eficientes en recursos
Estructura de multiplicación-acumulación
Multiplicadores de Booth radix-4
Ahorro de recursos de hardware
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
La convolución forma una de las operaciones más esenciales para el acelerador de hardware basado en FPGA. Sin embargo, los diseños existentes a menudo descuidan la arquitectura inherente de FPGA, lo que plantea un desafío severo en los recursos de hardware. Aunque algunos trabajos previos han propuesto multiplicadores aproximados o algoritmos de aceleración de convolución para abordar este problema, la inevitable pérdida de precisión y ocupación de recursos fácilmente conducen a la degradación del rendimiento. Hacia esto, primero proponemos dos tipos de multiplicadores precisos optimizados eficientes en recursos basados en LUTs o cadenas de acarreo. Luego, apuntando a plataformas basadas en FPGA, se construye una estructura genérica de multiplicación-acumulación acumulando directamente los productos parciales producidos por nuestros propuestos multiplicadores Booth radix-4 optimizados sin resultados intermedios de multiplicación y adición. Los resultados experimentales demuestran que nuestro multiplicador propuesto logra una reducción máxima del 51% en las tablas de búsqueda (LUT) en comparación con el multiplicador IP optimizado para área de Vivado. Además, la unidad de proceso convolucional que utiliza la estructura propuesta logra una reducción del 36% en LUT en comparación con los métodos existentes. Como estudios de caso, el método propuesto se aplica a la transformada DCT, LeNet y MobileNet-V3 para lograr un ahorro de recursos de hardware sin pérdida de precisión.
Descripción
La convolución forma una de las operaciones más esenciales para el acelerador de hardware basado en FPGA. Sin embargo, los diseños existentes a menudo descuidan la arquitectura inherente de FPGA, lo que plantea un desafío severo en los recursos de hardware. Aunque algunos trabajos previos han propuesto multiplicadores aproximados o algoritmos de aceleración de convolución para abordar este problema, la inevitable pérdida de precisión y ocupación de recursos fácilmente conducen a la degradación del rendimiento. Hacia esto, primero proponemos dos tipos de multiplicadores precisos optimizados eficientes en recursos basados en LUTs o cadenas de acarreo. Luego, apuntando a plataformas basadas en FPGA, se construye una estructura genérica de multiplicación-acumulación acumulando directamente los productos parciales producidos por nuestros propuestos multiplicadores Booth radix-4 optimizados sin resultados intermedios de multiplicación y adición. Los resultados experimentales demuestran que nuestro multiplicador propuesto logra una reducción máxima del 51% en las tablas de búsqueda (LUT) en comparación con el multiplicador IP optimizado para área de Vivado. Además, la unidad de proceso convolucional que utiliza la estructura propuesta logra una reducción del 36% en LUT en comparación con los métodos existentes. Como estudios de caso, el método propuesto se aplica a la transformada DCT, LeNet y MobileNet-V3 para lograr un ahorro de recursos de hardware sin pérdida de precisión.