Optimizando redes neuronales aceleradas por hardware con cuantificación y un algoritmo evolutivo de destilación de conocimiento
Autores: Stewart, Robert; Nowlan, Andrew; Bacchus, Pascal; Ducasse, Quentin; Komendantskaya, Ekaterina
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Optimizando redes neuronales aceleradas por hardware con cuantificación y un algoritmo evolutivo de destilación de conocimiento
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Redes neuronales
NEMOKD
Cuantización
Latencia
Precisión
Costos de hardware
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Este documento compara la latencia, precisión, tiempo de entrenamiento y costos de hardware de redes neuronales comprimidas con nuestro nuevo algoritmo evolutivo multiobjetivo llamado NEMOKD, y con cuantificación. Evaluamos NEMOKD en el procesador VPU Myriad X de Intel de Movidius, y la cuantificación en el hardware FPGA programable Z7020 de Xilinx. Evolucionar modelos con NEMOKD aumenta la precisión de inferencia hasta un 82% a costa de un aumento del 38% en la latencia, con un rendimiento de 100-590 cuadros de imagen por segundo (FPS). La cuantificación identifica un punto óptimo de precisión de 3 bits en el equilibrio entre latencia, requisitos de hardware, tiempo de entrenamiento y precisión. La implementación paralela de FPGA de redes neuronales cuantizadas de 2 y 3 bits aumenta el rendimiento de 6 k FPS a 373 k FPS, una aceleración de 62.
Descripción
Este documento compara la latencia, precisión, tiempo de entrenamiento y costos de hardware de redes neuronales comprimidas con nuestro nuevo algoritmo evolutivo multiobjetivo llamado NEMOKD, y con cuantificación. Evaluamos NEMOKD en el procesador VPU Myriad X de Intel de Movidius, y la cuantificación en el hardware FPGA programable Z7020 de Xilinx. Evolucionar modelos con NEMOKD aumenta la precisión de inferencia hasta un 82% a costa de un aumento del 38% en la latencia, con un rendimiento de 100-590 cuadros de imagen por segundo (FPS). La cuantificación identifica un punto óptimo de precisión de 3 bits en el equilibrio entre latencia, requisitos de hardware, tiempo de entrenamiento y precisión. La implementación paralela de FPGA de redes neuronales cuantizadas de 2 y 3 bits aumenta el rendimiento de 6 k FPS a 373 k FPS, una aceleración de 62.