Revisando la gestión de recursos para el marco de aprendizaje profundo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Revisando la gestión de recursos para el marco de aprendizaje profundo

Autores: Xu, Erci; Li, Shanshan

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico

2019

Revisando la gestión de recursos para el marco de aprendizaje profundo

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje profundo

Gestión de recursos

Aprendizaje profundo distribuido

Marcos de DDL

Dike

Asignación de recursos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones

La reciente adopción del aprendizaje profundo para diversas aplicaciones ha requerido que las infraestructuras se escalen horizontalmente y se configuren híbridamente verticalmente. Como resultado, la gestión eficiente de recursos para los marcos de aprendizaje profundo distribuido (DDL) se está volviendo cada vez más importante. Sin embargo, las técnicas existentes para escalar aplicaciones DDL dependen de gestores de recursos de propósito general diseñados originalmente para aplicaciones intensivas en datos. En contraste, las aplicaciones DDL presentan desafíos únicos para la gestión de recursos en comparación con los marcos tradicionales de big data, como un paradigma de comunicación maestro-esclavo diferente, modelos de ML más profundos que son más limitados computacional y en red que en E/S, el uso de recursos heterogéneos (por ejemplo, GPUs, TPUs) y el requisito variable de memoria. Además, la mayoría de los marcos de DDL requieren que los científicos de datos configuren manualmente la colocación de tareas y la asignación de recursos para ejecutar modelos de DDL. En este documento, presentamos Dike, un marco de gestión automática de recursos que toma decisiones de programación de manera transparente para la colocación y asignación de recursos a trabajadores DDL y servidores de parámetros, basándose en las características únicas del modelo DDL (número y tipo de parámetros y capas de redes neuronales), la heterogeneidad de los nodos (relaciones CPU/GPU) y el conjunto de datos de entrada. Implementamos Dike como un gestor de recursos para trabajos DDL en Tensorflow sobre Apache Mesos. Mostramos que Dike superó significativamente tanto la asignación manual como estática de ofertas de recursos a tareas de Tensorflow, y logró al menos el 95% del rendimiento óptimo para diferentes modelos DDL como ResNet e Inception.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro