Eficiente mapeo distribuido basado en computación para redes neuronales convolucionales en entornos paralelos integrados de múltiples núcleos
Autores: Jia, Long; Li, Gang; Lu, Meili; Wei, Xile; Yi, Guosheng
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Eficiente mapeo distribuido basado en computación para redes neuronales convolucionales en entornos paralelos integrados de múltiples núcleos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Sistemas integrados
Computación de terminal de borde
Algoritmos inteligentes
Plataforma de hardware basada en ARM multinúcleo
Redes neuronales convolucionales profundas
Reducción de dimensionalidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
Los sistemas embebidos son la mejor solución para lograr tareas informáticas de alto rendimiento en terminales de borde. Con el rápido aumento en la cantidad de datos generados por los dispositivos de borde, es imperativo implementar algoritmos inteligentes con grandes cantidades de datos y cálculos en sistemas terminales embebidos. En este documento, se estableció primero una novedosa plataforma de hardware embebido basada en ARM multicore con una estructura de malla tridimensional para admitir los algoritmos descentralizados. Para desplegar redes neuronales convolucionales profundas (CNN) en este entorno paralelo embebido, se propuso un mecanismo de mapeo distribuido para descentralizar eficientemente las tareas de cálculo en forma de una línea de ensamblaje de múltiples ramas. Además, también se utilizó un método de inicialización de reducción de dimensionalidad para resolver con éxito el conflicto entre el requisito de almacenamiento de tareas de cálculo y las limitadas memorias físicas. Las redes LeNet-5 con diferentes tamaños fueron optimizadas e implementadas en la plataforma embebida para verificar el rendimiento de nuestras estrategias propuestas. Los resultados mostraron que el uso de memoria puede controlarse dentro del rango utilizable mediante la reducción de dimensionalidad. La capa de submuestreo como punto base del mapeo para la segmentación entre capas logró la operación óptima en la dispersión lateral con una reducción de alrededor del 10% en el tiempo de ejecución en comparación con las otras capas. Además, la velocidad de cálculo para una red con un tamaño de entrada de 105 x 105 en el entorno paralelo multicore es casi 20 veces más rápida que en un sistema de un solo núcleo. Este documento proporcionó una estrategia factible para despliegues de algoritmos de inteligencia artificial en dispositivos embebidos multicore en el borde.
Descripción
Los sistemas embebidos son la mejor solución para lograr tareas informáticas de alto rendimiento en terminales de borde. Con el rápido aumento en la cantidad de datos generados por los dispositivos de borde, es imperativo implementar algoritmos inteligentes con grandes cantidades de datos y cálculos en sistemas terminales embebidos. En este documento, se estableció primero una novedosa plataforma de hardware embebido basada en ARM multicore con una estructura de malla tridimensional para admitir los algoritmos descentralizados. Para desplegar redes neuronales convolucionales profundas (CNN) en este entorno paralelo embebido, se propuso un mecanismo de mapeo distribuido para descentralizar eficientemente las tareas de cálculo en forma de una línea de ensamblaje de múltiples ramas. Además, también se utilizó un método de inicialización de reducción de dimensionalidad para resolver con éxito el conflicto entre el requisito de almacenamiento de tareas de cálculo y las limitadas memorias físicas. Las redes LeNet-5 con diferentes tamaños fueron optimizadas e implementadas en la plataforma embebida para verificar el rendimiento de nuestras estrategias propuestas. Los resultados mostraron que el uso de memoria puede controlarse dentro del rango utilizable mediante la reducción de dimensionalidad. La capa de submuestreo como punto base del mapeo para la segmentación entre capas logró la operación óptima en la dispersión lateral con una reducción de alrededor del 10% en el tiempo de ejecución en comparación con las otras capas. Además, la velocidad de cálculo para una red con un tamaño de entrada de 105 x 105 en el entorno paralelo multicore es casi 20 veces más rápida que en un sistema de un solo núcleo. Este documento proporcionó una estrategia factible para despliegues de algoritmos de inteligencia artificial en dispositivos embebidos multicore en el borde.