logo móvil
Contáctanos

Revisando la gestión de recursos para el marco de aprendizaje profundo

Autores: Xu, Erci; Li, Shanshan

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Revisando la gestión de recursos para el marco de aprendizaje profundo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje profundo
Gestión de recursos
Aprendizaje profundo distribuido
Marcos de DDL
Dike
Asignación de recursos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
La reciente adopción del aprendizaje profundo para diversas aplicaciones ha requerido que las infraestructuras se escalen horizontalmente y se configuren híbridamente verticalmente. Como resultado, la gestión eficiente de recursos para los marcos de aprendizaje profundo distribuido (DDL) se está volviendo cada vez más importante. Sin embargo, las técnicas existentes para escalar aplicaciones DDL dependen de gestores de recursos de propósito general diseñados originalmente para aplicaciones intensivas en datos. En contraste, las aplicaciones DDL presentan desafíos únicos para la gestión de recursos en comparación con los marcos tradicionales de big data, como un paradigma de comunicación maestro-esclavo diferente, modelos de ML más profundos que son más limitados computacional y en red que en E/S, el uso de recursos heterogéneos (por ejemplo, GPUs, TPUs) y el requisito variable de memoria. Además, la mayoría de los marcos de DDL requieren que los científicos de datos configuren manualmente la colocación de tareas y la asignación de recursos para ejecutar modelos de DDL. En este documento, presentamos Dike, un marco de gestión automática de recursos que toma decisiones de programación de manera transparente para la colocación y asignación de recursos a trabajadores DDL y servidores de parámetros, basándose en las características únicas del modelo DDL (número y tipo de parámetros y capas de redes neuronales), la heterogeneidad de los nodos (relaciones CPU/GPU) y el conjunto de datos de entrada. Implementamos Dike como un gestor de recursos para trabajos DDL en Tensorflow sobre Apache Mesos. Mostramos que Dike superó significativamente tanto la asignación manual como estática de ofertas de recursos a tareas de Tensorflow, y logró al menos el 95% del rendimiento óptimo para diferentes modelos DDL como ResNet e Inception.

Otros recursos que podrían interesarte

Temas Virtualpro