logo móvil
Contáctanos

Programación de Aprendizaje Profundo en un Clúster de Matrices de Puertas Programables en Campo Usando Aceleradores de Aprendizaje Profundo Configurables

Autores: Fang, Tianyang; Perez-Vicente, Alejandro; Johnson, Hans; Saniie, Jafar

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Programación de Aprendizaje Profundo en un Clúster de Matrices de Puertas Programables en Campo Usando Aceleradores de Aprendizaje Profundo Configurables


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Sistema distribuido
FPGAs
Aprendizaje profundo
Programación
Red neuronal
Aplicaciones de FPGA

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este documento presenta el desarrollo y la evaluación de un sistema distribuido que emplea matrices de puertas programables en campo (FPGAs) de baja latencia para optimizar la programación de cargas de trabajo de aprendizaje profundo (DL) y para configurar múltiples arquitecturas de aceleradores de aprendizaje profundo (DLA). Con el objetivo de avanzar en las aplicaciones de FPGA en la computación en la periferia en tiempo real, este estudio se centra en lograr una latencia óptima para un sistema de computación distribuido. Se adoptó una metodología novedosa, utilizando hardware configurable para examinar clústeres de DLAs, variando en arquitectura y técnicas de programación. El sistema demostró su capacidad para procesar en paralelo diversos modelos de redes neuronales (NN), gestionar gráficos de computación en una secuencia en tubería y asignar recursos computacionales de manera eficiente a capas intensivas de NN. Se examinaron cinco DLAs configurables: Versatile Tensor Accelerator (VTA), Nvidia DLA (NVDLA), Xilinx Deep Processing Unit (DPU), Tensil Compute Unit (CU) y Pipelined Convolutional Neural Network (PipeCNN), a través de dos tipos de clústeres FPGA que consisten en procesadores Zynq-7000 y Zynq UltraScale+ System-on-Chip (SoC), respectivamente. Se probaron cuatro cargas de trabajo de redes neuronales profundas (DNN): Scatter-Gather, Asignación de Núcleo de IA, Programación en Pipeline y Programación Fusionada. Estos métodos revelaron una disminución exponencial en el tiempo de procesamiento de hasta un 90% de aceleración, aunque se notaron desviaciones dependiendo de la carga de trabajo y la configuración del clúster. Esta investigación fundamenta la utilidad de las FPGAs en el despliegue adaptable y eficiente de DL, estableciendo un precedente para futuras configuraciones experimentales y puntos de referencia de rendimiento.

Otros recursos que podrían interesarte

Temas Virtualpro