Método de Compresión de Modelos de Redes Neuronales Convolucionales para Co-Diseño de Software y Hardware
Autores: Jang, Seojin; Liu, Wei; Cho, Yongbeom
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Método de Compresión de Modelos de Redes Neuronales Convolucionales para Co-Diseño de Software y Hardware
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Alta precisión
Redes neuronales convolucionales
Rendimiento en tiempo real
Matrices de puertas programables en campo
Procesamiento paralelo
Procesadores FPGA
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Debido a su alta precisión, las redes neuronales convolucionales profundas (CNN) se utilizan ampliamente. Sin embargo, se caracterizan por su alta complejidad. Se requiere rendimiento en tiempo real y aceleración en los sistemas CNN actuales. Una unidad de procesamiento gráfico (GPU) es una posible solución para mejorar el rendimiento en tiempo real; sin embargo, su relación de consumo de energía es deficiente debido a su alto consumo de energía. En contraste, las matrices de puertas programables en campo (FPGA) tienen un menor consumo de energía y una arquitectura flexible, lo que las hace más adecuadas para la implementación de CNN. En este estudio, proponemos un método que ofrece tanto la velocidad de las CNN como la potencia y el paralelismo de las FPGA. Esta solución se basa en dos técnicas de aceleración principales: el procesamiento paralelo de recursos de capas y la canalización dentro de capas específicas. Además, se introduce un nuevo método para intercambiar requisitos de dominio para velocidad y tiempo de diseño mediante la implementación de un diseño automático de co-diseño de hardware y software de CNN utilizando la herramienta de sistema en chip definido por software. Evaluamos el método propuesto utilizando cinco redes: MobileNetV1, ShuffleNetV2, SqueezeNet, ResNet-50 y VGG-16, y procesadores FPGA: ZCU102. Demostramos experimentalmente que nuestro diseño tiene una aceleración mayor que el método de implementación convencional. El método propuesto logra una aceleración de 2.47x, 1.93x y 2.16x en el ZCU102 para MobileNetV1, ShuffleNetV2 y SqueezeNet, respectivamente.
Descripción
Debido a su alta precisión, las redes neuronales convolucionales profundas (CNN) se utilizan ampliamente. Sin embargo, se caracterizan por su alta complejidad. Se requiere rendimiento en tiempo real y aceleración en los sistemas CNN actuales. Una unidad de procesamiento gráfico (GPU) es una posible solución para mejorar el rendimiento en tiempo real; sin embargo, su relación de consumo de energía es deficiente debido a su alto consumo de energía. En contraste, las matrices de puertas programables en campo (FPGA) tienen un menor consumo de energía y una arquitectura flexible, lo que las hace más adecuadas para la implementación de CNN. En este estudio, proponemos un método que ofrece tanto la velocidad de las CNN como la potencia y el paralelismo de las FPGA. Esta solución se basa en dos técnicas de aceleración principales: el procesamiento paralelo de recursos de capas y la canalización dentro de capas específicas. Además, se introduce un nuevo método para intercambiar requisitos de dominio para velocidad y tiempo de diseño mediante la implementación de un diseño automático de co-diseño de hardware y software de CNN utilizando la herramienta de sistema en chip definido por software. Evaluamos el método propuesto utilizando cinco redes: MobileNetV1, ShuffleNetV2, SqueezeNet, ResNet-50 y VGG-16, y procesadores FPGA: ZCU102. Demostramos experimentalmente que nuestro diseño tiene una aceleración mayor que el método de implementación convencional. El método propuesto logra una aceleración de 2.47x, 1.93x y 2.16x en el ZCU102 para MobileNetV1, ShuffleNetV2 y SqueezeNet, respectivamente.