Diseño de un acelerador genérico de red neuronal convolucional dinámicamente reconfigurable con un equilibrio óptimo
Autores: Tong, Haoran; Han, Ke; Han, Si; Luo, Yingqi
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Diseño de un acelerador genérico de red neuronal convolucional dinámicamente reconfigurable con un equilibrio óptimo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Dispositivos periféricos
Aplicaciones
Modelos de red
Convolución
Deconvolución
Acelerador de CNN
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
En muchos escenarios, los dispositivos periféricos realizan cálculos para aplicaciones como detección y seguimiento de objetivos, fusión de sensores multimodales, mejora de imágenes con poca luz y segmentación de imágenes. Existe una tendencia creciente de implementar y ejecutar múltiples modelos de red diferentes en una plataforma de hardware, pero hay una falta de arquitecturas de aceleración genéricas que admitan capas de convolución estándar (CONV), convolución separable en profundidad y capas de deconvolución (DeCONV) en escenarios tan complejos. En respuesta, este documento propone un acelerador de CNN más versátil y dinámicamente reconfigurable con un esquema de computación altamente unificado. El diseño propuesto, que es compatible con CNN estándar, CNN livianos y CNN con capas DeCONV, mejora aún más la utilización de recursos y reduce la brecha de eficiencia al implementar diferentes modelos. Por lo tanto, se mejora el equilibrio de hardware durante la ejecución alternante de múltiples modelos. En comparación con un acelerador de CNN de última generación, Xilinx DPU B4096, nuestra arquitectura optimizada logra mejoras en la utilización de recursos de 1.08x para VGG16 y 1.77x para MobileNetV1 en tareas de inferencia en la plataforma Xilinx ZCU102. La utilización de recursos y la degradación de eficiencia entre estos dos modelos se reduce a 59.6% y 63.7%, respectivamente. Además, la arquitectura propuesta puede ejecutar adecuadamente capas DeCONV y demostrar un buen rendimiento.
Descripción
En muchos escenarios, los dispositivos periféricos realizan cálculos para aplicaciones como detección y seguimiento de objetivos, fusión de sensores multimodales, mejora de imágenes con poca luz y segmentación de imágenes. Existe una tendencia creciente de implementar y ejecutar múltiples modelos de red diferentes en una plataforma de hardware, pero hay una falta de arquitecturas de aceleración genéricas que admitan capas de convolución estándar (CONV), convolución separable en profundidad y capas de deconvolución (DeCONV) en escenarios tan complejos. En respuesta, este documento propone un acelerador de CNN más versátil y dinámicamente reconfigurable con un esquema de computación altamente unificado. El diseño propuesto, que es compatible con CNN estándar, CNN livianos y CNN con capas DeCONV, mejora aún más la utilización de recursos y reduce la brecha de eficiencia al implementar diferentes modelos. Por lo tanto, se mejora el equilibrio de hardware durante la ejecución alternante de múltiples modelos. En comparación con un acelerador de CNN de última generación, Xilinx DPU B4096, nuestra arquitectura optimizada logra mejoras en la utilización de recursos de 1.08x para VGG16 y 1.77x para MobileNetV1 en tareas de inferencia en la plataforma Xilinx ZCU102. La utilización de recursos y la degradación de eficiencia entre estos dos modelos se reduce a 59.6% y 63.7%, respectivamente. Además, la arquitectura propuesta puede ejecutar adecuadamente capas DeCONV y demostrar un buen rendimiento.