Programación de Aprendizaje Profundo en un Clúster de Matrices de Puertas Programables en Campo Usando Aceleradores de Aprendizaje Profundo Configurables
Autores: Fang, Tianyang; Perez-Vicente, Alejandro; Johnson, Hans; Saniie, Jafar
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Programación de Aprendizaje Profundo en un Clúster de Matrices de Puertas Programables en Campo Usando Aceleradores de Aprendizaje Profundo Configurables
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Sistema distribuido
FPGAs
Aprendizaje profundo
Programación
Red neuronal
Aplicaciones de FPGA
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento presenta el desarrollo y la evaluación de un sistema distribuido que emplea matrices de puertas programables en campo (FPGAs) de baja latencia para optimizar la programación de cargas de trabajo de aprendizaje profundo (DL) y para configurar múltiples arquitecturas de aceleradores de aprendizaje profundo (DLA). Con el objetivo de avanzar en las aplicaciones de FPGA en la computación en la periferia en tiempo real, este estudio se centra en lograr una latencia óptima para un sistema de computación distribuido. Se adoptó una metodología novedosa, utilizando hardware configurable para examinar clústeres de DLAs, variando en arquitectura y técnicas de programación. El sistema demostró su capacidad para procesar en paralelo diversos modelos de redes neuronales (NN), gestionar gráficos de computación en una secuencia en tubería y asignar recursos computacionales de manera eficiente a capas intensivas de NN. Se examinaron cinco DLAs configurables: Versatile Tensor Accelerator (VTA), Nvidia DLA (NVDLA), Xilinx Deep Processing Unit (DPU), Tensil Compute Unit (CU) y Pipelined Convolutional Neural Network (PipeCNN), a través de dos tipos de clústeres FPGA que consisten en procesadores Zynq-7000 y Zynq UltraScale+ System-on-Chip (SoC), respectivamente. Se probaron cuatro cargas de trabajo de redes neuronales profundas (DNN): Scatter-Gather, Asignación de Núcleo de IA, Programación en Pipeline y Programación Fusionada. Estos métodos revelaron una disminución exponencial en el tiempo de procesamiento de hasta un 90% de aceleración, aunque se notaron desviaciones dependiendo de la carga de trabajo y la configuración del clúster. Esta investigación fundamenta la utilidad de las FPGAs en el despliegue adaptable y eficiente de DL, estableciendo un precedente para futuras configuraciones experimentales y puntos de referencia de rendimiento.
Descripción
Este documento presenta el desarrollo y la evaluación de un sistema distribuido que emplea matrices de puertas programables en campo (FPGAs) de baja latencia para optimizar la programación de cargas de trabajo de aprendizaje profundo (DL) y para configurar múltiples arquitecturas de aceleradores de aprendizaje profundo (DLA). Con el objetivo de avanzar en las aplicaciones de FPGA en la computación en la periferia en tiempo real, este estudio se centra en lograr una latencia óptima para un sistema de computación distribuido. Se adoptó una metodología novedosa, utilizando hardware configurable para examinar clústeres de DLAs, variando en arquitectura y técnicas de programación. El sistema demostró su capacidad para procesar en paralelo diversos modelos de redes neuronales (NN), gestionar gráficos de computación en una secuencia en tubería y asignar recursos computacionales de manera eficiente a capas intensivas de NN. Se examinaron cinco DLAs configurables: Versatile Tensor Accelerator (VTA), Nvidia DLA (NVDLA), Xilinx Deep Processing Unit (DPU), Tensil Compute Unit (CU) y Pipelined Convolutional Neural Network (PipeCNN), a través de dos tipos de clústeres FPGA que consisten en procesadores Zynq-7000 y Zynq UltraScale+ System-on-Chip (SoC), respectivamente. Se probaron cuatro cargas de trabajo de redes neuronales profundas (DNN): Scatter-Gather, Asignación de Núcleo de IA, Programación en Pipeline y Programación Fusionada. Estos métodos revelaron una disminución exponencial en el tiempo de procesamiento de hasta un 90% de aceleración, aunque se notaron desviaciones dependiendo de la carga de trabajo y la configuración del clúster. Esta investigación fundamenta la utilidad de las FPGAs en el despliegue adaptable y eficiente de DL, estableciendo un precedente para futuras configuraciones experimentales y puntos de referencia de rendimiento.