Un modelo de paralelización mejorado para la predicción del rendimiento de Apache Spark en un clúster Hadoop multinodo
Autores: Ahmed, Nasim; Barczak, Andre L. C.; Rashid, Mohammad A.; Susnjak, Teo
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un modelo de paralelización mejorado para la predicción del rendimiento de Apache Spark en un clúster Hadoop multinodo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Marcos de datos grandes
Apache spark
Predicción de rendimiento
Parámetros configurables
Modelos de paralelización
Predicción de tiempo de ejecución
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Los marcos de datos grandes juegan un papel vital en el almacenamiento, procesamiento y análisis de grandes conjuntos de datos. Apache Spark se ha establecido como uno de los motores de datos grandes más populares por su eficiencia y confiabilidad. Sin embargo, uno de los problemas significativos del sistema Spark es la predicción del rendimiento. Spark tiene más de 150 parámetros configurables, y la configuración de tantos parámetros es una tarea desafiante al determinar los parámetros adecuados para el sistema. En este documento, se proponen dos modelos de paralelización distintos para la predicción del rendimiento. Nuestra idea es que cada nodo en un clúster de Hadoop puede comunicarse con nodos idénticos, y una cierta función del tiempo de ejecución no paralelizable puede estimarse en consecuencia. Ambos modelos utilizan ecuaciones simples que nos permiten predecir el tiempo de ejecución cuando se conoce el tamaño del trabajo y el número de ejecutables. Los modelos propuestos fueron evaluados en base a cinco cargas de trabajo HiBench, Kmeans, PageRank, Graph (NWeight), SVM y WordCount. Los datos empíricos de las cargas de trabajo se ajustaron con uno de los dos modelos que cumplen con los requisitos de precisión. Finalmente, los hallazgos experimentales muestran que el modelo puede ser una herramienta útil y práctica para la programación y planificación del despliegue del sistema.
Descripción
Los marcos de datos grandes juegan un papel vital en el almacenamiento, procesamiento y análisis de grandes conjuntos de datos. Apache Spark se ha establecido como uno de los motores de datos grandes más populares por su eficiencia y confiabilidad. Sin embargo, uno de los problemas significativos del sistema Spark es la predicción del rendimiento. Spark tiene más de 150 parámetros configurables, y la configuración de tantos parámetros es una tarea desafiante al determinar los parámetros adecuados para el sistema. En este documento, se proponen dos modelos de paralelización distintos para la predicción del rendimiento. Nuestra idea es que cada nodo en un clúster de Hadoop puede comunicarse con nodos idénticos, y una cierta función del tiempo de ejecución no paralelizable puede estimarse en consecuencia. Ambos modelos utilizan ecuaciones simples que nos permiten predecir el tiempo de ejecución cuando se conoce el tamaño del trabajo y el número de ejecutables. Los modelos propuestos fueron evaluados en base a cinco cargas de trabajo HiBench, Kmeans, PageRank, Graph (NWeight), SVM y WordCount. Los datos empíricos de las cargas de trabajo se ajustaron con uno de los dos modelos que cumplen con los requisitos de precisión. Finalmente, los hallazgos experimentales muestran que el modelo puede ser una herramienta útil y práctica para la programación y planificación del despliegue del sistema.