Gpgpu acelerada la clasificación profunda de objetos en una plataforma móvil heterogénea
Autores: Rizvi, Syed Tahir Hussain; Cabodi, Gianpiero; Patti, Denis; Francini, Gianluca
Idioma: Inglés
Editor: MDPI
Año: 2016
Acceso abierto
Artículo científico
2016
Gpgpu acelerada la clasificación profunda de objetos en una plataforma móvil heterogénea
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Redes neuronales convolucionales
Clasificación de imágenes
Requisitos computacionales
Dispositivos integrados
Multiplicaciones de matrices
Esquema heterogéneo de CPU-GPU
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
Las redes neuronales convolucionales profundas logran un rendimiento de vanguardia en la clasificación de imágenes. Sin embargo, los requisitos computacionales y de memoria de dichas redes son enormes, lo que representa un problema en dispositivos integrados debido a sus limitaciones. La mayor parte de esta complejidad se deriva de las capas convolucionales y en particular de las multiplicaciones de matrices que implican. Este documento propone un enfoque completo para la clasificación de imágenes que proporciona capas comunes utilizadas en redes neuronales. Específicamente, el enfoque propuesto se basa en un esquema heterogéneo CPU-GPU para realizar convoluciones en el dominio de transformación. La implementación basada en Compute Unified Device Architecture (CUDA) del enfoque propuesto se evalúa en tres redes diferentes de clasificación de imágenes en un procesador móvil Tegra K1 CPU-GPU. Los experimentos muestran que el esquema heterogéneo presentado ofrece una aceleración de 50 veces sobre la referencia solo de CPU y supera en rendimiento a una referencia basada en GPU en 2 veces, al tiempo que reduce el consumo de energía en casi un 30%.
Descripción
Las redes neuronales convolucionales profundas logran un rendimiento de vanguardia en la clasificación de imágenes. Sin embargo, los requisitos computacionales y de memoria de dichas redes son enormes, lo que representa un problema en dispositivos integrados debido a sus limitaciones. La mayor parte de esta complejidad se deriva de las capas convolucionales y en particular de las multiplicaciones de matrices que implican. Este documento propone un enfoque completo para la clasificación de imágenes que proporciona capas comunes utilizadas en redes neuronales. Específicamente, el enfoque propuesto se basa en un esquema heterogéneo CPU-GPU para realizar convoluciones en el dominio de transformación. La implementación basada en Compute Unified Device Architecture (CUDA) del enfoque propuesto se evalúa en tres redes diferentes de clasificación de imágenes en un procesador móvil Tegra K1 CPU-GPU. Los experimentos muestran que el esquema heterogéneo presentado ofrece una aceleración de 50 veces sobre la referencia solo de CPU y supera en rendimiento a una referencia basada en GPU en 2 veces, al tiempo que reduce el consumo de energía en casi un 30%.