Mejora del rendimiento de los algoritmos de programación de tareas conscientes de DAG con una gestión eficiente de caché en Spark
Autores: Zhao, Yao; Dong, Jian; Liu, Hongwei; Wu, Jin; Liu, Yanxin
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Mejora del rendimiento de los algoritmos de programación de tareas conscientes de DAG con una gestión eficiente de caché en Spark
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Algoritmos de programación de tareas
Consciente de DAG
Política de gestión de caché
Sistemas de datos paralelos
Spark
Establecer primero etapas de larga duración.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 52
Citaciones: Sin citaciones
Los algoritmos de programación de tareas conscientes del grafo acíclico dirigido (DAG) han sido estudiados ampliamente en los últimos años, y estos algoritmos han logrado mejoras significativas en el rendimiento en plataformas analíticas de datos en paralelo. Sin embargo, los actuales algoritmos de programación de tareas conscientes de DAG, entre los que se destacan HEFT y GRAPHENE, prestan poca atención a la política de gestión de caché, la cual juega un papel vital en sistemas de datos en paralelo en memoria como Spark. Las políticas de gestión de caché diseñadas para Spark presentan un bajo rendimiento en los algoritmos de programación de tareas conscientes de DAG, lo que resulta en fallos de caché y degradación del rendimiento. En este estudio, proponemos una nueva política de gestión de caché conocida como Long-Running Stage Set First (LSF), que aprovecha al máximo las dependencias de las tareas para optimizar el rendimiento de la gestión de caché en algoritmos de programación conscientes de DAG. LSF calcula las prioridades de almacenamiento en caché y de precarga de conjuntos de datos distribuidos resilientes según sus cargas de trabajo no procesadas y su importancia en la programación paralela, que son factores clave en los algoritmos de programación conscientes de DAG. Además, presentamos un algoritmo de programación de tareas consciente de la caché basado en LSF para reducir la fragmentación de recursos en la computación. Los experimentos demuestran que, en comparación con los algoritmos de programación conscientes de DAG con LRU y MRD, los mismos algoritmos con LSF mejoran el JCT hasta en un 42% y un 30%, respectivamente. El algoritmo de programación consciente de la caché propuesto también muestra una reducción del 12% en el tiempo promedio de finalización del trabajo en comparación con GRAPHENE con LSF.
Descripción
Los algoritmos de programación de tareas conscientes del grafo acíclico dirigido (DAG) han sido estudiados ampliamente en los últimos años, y estos algoritmos han logrado mejoras significativas en el rendimiento en plataformas analíticas de datos en paralelo. Sin embargo, los actuales algoritmos de programación de tareas conscientes de DAG, entre los que se destacan HEFT y GRAPHENE, prestan poca atención a la política de gestión de caché, la cual juega un papel vital en sistemas de datos en paralelo en memoria como Spark. Las políticas de gestión de caché diseñadas para Spark presentan un bajo rendimiento en los algoritmos de programación de tareas conscientes de DAG, lo que resulta en fallos de caché y degradación del rendimiento. En este estudio, proponemos una nueva política de gestión de caché conocida como Long-Running Stage Set First (LSF), que aprovecha al máximo las dependencias de las tareas para optimizar el rendimiento de la gestión de caché en algoritmos de programación conscientes de DAG. LSF calcula las prioridades de almacenamiento en caché y de precarga de conjuntos de datos distribuidos resilientes según sus cargas de trabajo no procesadas y su importancia en la programación paralela, que son factores clave en los algoritmos de programación conscientes de DAG. Además, presentamos un algoritmo de programación de tareas consciente de la caché basado en LSF para reducir la fragmentación de recursos en la computación. Los experimentos demuestran que, en comparación con los algoritmos de programación conscientes de DAG con LRU y MRD, los mismos algoritmos con LSF mejoran el JCT hasta en un 42% y un 30%, respectivamente. El algoritmo de programación consciente de la caché propuesto también muestra una reducción del 12% en el tiempo promedio de finalización del trabajo en comparación con GRAPHENE con LSF.