Revisando la gestión de recursos para el marco de aprendizaje profundo
Autores: Xu, Erci; Li, Shanshan
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Revisando la gestión de recursos para el marco de aprendizaje profundo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje profundo
Gestión de recursos
Aprendizaje profundo distribuido
Marcos de DDL
Dike
Asignación de recursos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
La reciente adopción del aprendizaje profundo para diversas aplicaciones ha requerido que las infraestructuras se escalen horizontalmente y se configuren híbridamente verticalmente. Como resultado, la gestión eficiente de recursos para los marcos de aprendizaje profundo distribuido (DDL) se está volviendo cada vez más importante. Sin embargo, las técnicas existentes para escalar aplicaciones DDL dependen de gestores de recursos de propósito general diseñados originalmente para aplicaciones intensivas en datos. En contraste, las aplicaciones DDL presentan desafíos únicos para la gestión de recursos en comparación con los marcos tradicionales de big data, como un paradigma de comunicación maestro-esclavo diferente, modelos de ML más profundos que son más limitados computacional y en red que en E/S, el uso de recursos heterogéneos (por ejemplo, GPUs, TPUs) y el requisito variable de memoria. Además, la mayoría de los marcos de DDL requieren que los científicos de datos configuren manualmente la colocación de tareas y la asignación de recursos para ejecutar modelos de DDL. En este documento, presentamos Dike, un marco de gestión automática de recursos que toma decisiones de programación de manera transparente para la colocación y asignación de recursos a trabajadores DDL y servidores de parámetros, basándose en las características únicas del modelo DDL (número y tipo de parámetros y capas de redes neuronales), la heterogeneidad de los nodos (relaciones CPU/GPU) y el conjunto de datos de entrada. Implementamos Dike como un gestor de recursos para trabajos DDL en Tensorflow sobre Apache Mesos. Mostramos que Dike superó significativamente tanto la asignación manual como estática de ofertas de recursos a tareas de Tensorflow, y logró al menos el 95% del rendimiento óptimo para diferentes modelos DDL como ResNet e Inception.
Descripción
La reciente adopción del aprendizaje profundo para diversas aplicaciones ha requerido que las infraestructuras se escalen horizontalmente y se configuren híbridamente verticalmente. Como resultado, la gestión eficiente de recursos para los marcos de aprendizaje profundo distribuido (DDL) se está volviendo cada vez más importante. Sin embargo, las técnicas existentes para escalar aplicaciones DDL dependen de gestores de recursos de propósito general diseñados originalmente para aplicaciones intensivas en datos. En contraste, las aplicaciones DDL presentan desafíos únicos para la gestión de recursos en comparación con los marcos tradicionales de big data, como un paradigma de comunicación maestro-esclavo diferente, modelos de ML más profundos que son más limitados computacional y en red que en E/S, el uso de recursos heterogéneos (por ejemplo, GPUs, TPUs) y el requisito variable de memoria. Además, la mayoría de los marcos de DDL requieren que los científicos de datos configuren manualmente la colocación de tareas y la asignación de recursos para ejecutar modelos de DDL. En este documento, presentamos Dike, un marco de gestión automática de recursos que toma decisiones de programación de manera transparente para la colocación y asignación de recursos a trabajadores DDL y servidores de parámetros, basándose en las características únicas del modelo DDL (número y tipo de parámetros y capas de redes neuronales), la heterogeneidad de los nodos (relaciones CPU/GPU) y el conjunto de datos de entrada. Implementamos Dike como un gestor de recursos para trabajos DDL en Tensorflow sobre Apache Mesos. Mostramos que Dike superó significativamente tanto la asignación manual como estática de ofertas de recursos a tareas de Tensorflow, y logró al menos el 95% del rendimiento óptimo para diferentes modelos DDL como ResNet e Inception.