Programación de Aprendizaje Profundo en un Clúster de Matrices de Puertas Programables en Campo Usando Aceleradores de Aprendizaje Profundo Configurables

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Programación de Aprendizaje Profundo en un Clúster de Matrices de Puertas Programables en Campo Usando Aceleradores de Aprendizaje Profundo Configurables

Autores: Fang, Tianyang; Perez-Vicente, Alejandro; Johnson, Hans; Saniie, Jafar

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Programación de Aprendizaje Profundo en un Clúster de Matrices de Puertas Programables en Campo Usando Aceleradores de Aprendizaje Profundo Configurables

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Sistema distribuido

FPGAs

Aprendizaje profundo

Programación

Red neuronal

Aplicaciones de FPGA

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este documento presenta el desarrollo y la evaluación de un sistema distribuido que emplea matrices de puertas programables en campo (FPGAs) de baja latencia para optimizar la programación de cargas de trabajo de aprendizaje profundo (DL) y para configurar múltiples arquitecturas de aceleradores de aprendizaje profundo (DLA). Con el objetivo de avanzar en las aplicaciones de FPGA en la computación en la periferia en tiempo real, este estudio se centra en lograr una latencia óptima para un sistema de computación distribuido. Se adoptó una metodología novedosa, utilizando hardware configurable para examinar clústeres de DLAs, variando en arquitectura y técnicas de programación. El sistema demostró su capacidad para procesar en paralelo diversos modelos de redes neuronales (NN), gestionar gráficos de computación en una secuencia en tubería y asignar recursos computacionales de manera eficiente a capas intensivas de NN. Se examinaron cinco DLAs configurables: Versatile Tensor Accelerator (VTA), Nvidia DLA (NVDLA), Xilinx Deep Processing Unit (DPU), Tensil Compute Unit (CU) y Pipelined Convolutional Neural Network (PipeCNN), a través de dos tipos de clústeres FPGA que consisten en procesadores Zynq-7000 y Zynq UltraScale+ System-on-Chip (SoC), respectivamente. Se probaron cuatro cargas de trabajo de redes neuronales profundas (DNN): Scatter-Gather, Asignación de Núcleo de IA, Programación en Pipeline y Programación Fusionada. Estos métodos revelaron una disminución exponencial en el tiempo de procesamiento de hasta un 90% de aceleración, aunque se notaron desviaciones dependiendo de la carga de trabajo y la configuración del clúster. Esta investigación fundamenta la utilidad de las FPGAs en el despliegue adaptable y eficiente de DL, estableciendo un precedente para futuras configuraciones experimentales y puntos de referencia de rendimiento.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro