Redes neuronales convolucionales rápidas en FPGAs de baja densidad utilizando cero-salto y poda de pesos
Autores: Véstias, Mário P.; Duarte, Rui Policarpo; de Sousa, José T.; Neto, Horácio C.
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Redes neuronales convolucionales rápidas en FPGAs de baja densidad utilizando cero-salto y poda de pesos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Dispositivos periféricos
Métodos de aprendizaje automático
Aprendizaje profundo
Redes neuronales convolucionales
Aplicaciones de visión por computadora
Dispositivos FPGA
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
Los dispositivos de borde se están volviendo más inteligentes con la integración de métodos de aprendizaje automático, como el aprendizaje profundo, y por lo tanto se utilizan en muchos dominios de aplicación donde las decisiones deben tomarse sin intervención humana. El aprendizaje profundo y, en particular, las redes neuronales convolucionales (CNN) son más eficientes que los algoritmos anteriores para varias aplicaciones de visión por computadora como seguridad y vigilancia, donde se requiere análisis de imágenes y videos. Esta mejor eficiencia viene con un costo de altos requisitos de computación y memoria. Por lo tanto, ejecutar CNN en dispositivos informáticos integrados es un desafío tanto para los diseñadores de algoritmos como para los de hardware. Se han investigado nuevos dispositivos de procesamiento, arquitecturas de sistemas dedicadas y optimización de las redes para hacer frente a estos requisitos de computación. En este documento, mejoramos los tiempos de ejecución de inferencia de CNN en FPGA de baja densidad (Field-Programmable Gate Arrays) utilizando aritmética de punto fijo, salto de cero y poda de pesos. La arquitectura desarrollada admite la ejecución de grandes CNN en dispositivos FPGA con recursos de memoria y computación reducidos en el chip. Con la arquitectura propuesta, es posible inferir una imagen en AlexNet en 2.9 ms en un ZYNQ7020 y 1.0 ms en un ZYNQ7045 con menos del 1% de degradación de precisión. Estos resultados mejoran las arquitecturas previas de vanguardia para inferencia de CNN.
Descripción
Los dispositivos de borde se están volviendo más inteligentes con la integración de métodos de aprendizaje automático, como el aprendizaje profundo, y por lo tanto se utilizan en muchos dominios de aplicación donde las decisiones deben tomarse sin intervención humana. El aprendizaje profundo y, en particular, las redes neuronales convolucionales (CNN) son más eficientes que los algoritmos anteriores para varias aplicaciones de visión por computadora como seguridad y vigilancia, donde se requiere análisis de imágenes y videos. Esta mejor eficiencia viene con un costo de altos requisitos de computación y memoria. Por lo tanto, ejecutar CNN en dispositivos informáticos integrados es un desafío tanto para los diseñadores de algoritmos como para los de hardware. Se han investigado nuevos dispositivos de procesamiento, arquitecturas de sistemas dedicadas y optimización de las redes para hacer frente a estos requisitos de computación. En este documento, mejoramos los tiempos de ejecución de inferencia de CNN en FPGA de baja densidad (Field-Programmable Gate Arrays) utilizando aritmética de punto fijo, salto de cero y poda de pesos. La arquitectura desarrollada admite la ejecución de grandes CNN en dispositivos FPGA con recursos de memoria y computación reducidos en el chip. Con la arquitectura propuesta, es posible inferir una imagen en AlexNet en 2.9 ms en un ZYNQ7020 y 1.0 ms en un ZYNQ7045 con menos del 1% de degradación de precisión. Estos resultados mejoran las arquitecturas previas de vanguardia para inferencia de CNN.