logo móvil
Contáctanos

Redes neuronales convolucionales rápidas en FPGAs de baja densidad utilizando cero-salto y poda de pesos

Autores: Véstias, Mário P.; Duarte, Rui Policarpo; de Sousa, José T.; Neto, Horácio C.

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Redes neuronales convolucionales rápidas en FPGAs de baja densidad utilizando cero-salto y poda de pesos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Dispositivos periféricos
Métodos de aprendizaje automático
Aprendizaje profundo
Redes neuronales convolucionales
Aplicaciones de visión por computadora
Dispositivos FPGA

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones


Descripción
Los dispositivos de borde se están volviendo más inteligentes con la integración de métodos de aprendizaje automático, como el aprendizaje profundo, y por lo tanto se utilizan en muchos dominios de aplicación donde las decisiones deben tomarse sin intervención humana. El aprendizaje profundo y, en particular, las redes neuronales convolucionales (CNN) son más eficientes que los algoritmos anteriores para varias aplicaciones de visión por computadora como seguridad y vigilancia, donde se requiere análisis de imágenes y videos. Esta mejor eficiencia viene con un costo de altos requisitos de computación y memoria. Por lo tanto, ejecutar CNN en dispositivos informáticos integrados es un desafío tanto para los diseñadores de algoritmos como para los de hardware. Se han investigado nuevos dispositivos de procesamiento, arquitecturas de sistemas dedicadas y optimización de las redes para hacer frente a estos requisitos de computación. En este documento, mejoramos los tiempos de ejecución de inferencia de CNN en FPGA de baja densidad (Field-Programmable Gate Arrays) utilizando aritmética de punto fijo, salto de cero y poda de pesos. La arquitectura desarrollada admite la ejecución de grandes CNN en dispositivos FPGA con recursos de memoria y computación reducidos en el chip. Con la arquitectura propuesta, es posible inferir una imagen en AlexNet en 2.9 ms en un ZYNQ7020 y 1.0 ms en un ZYNQ7045 con menos del 1% de degradación de precisión. Estos resultados mejoran las arquitecturas previas de vanguardia para inferencia de CNN.

Otros recursos que podrían interesarte

Temas Virtualpro