Un modelo de paralelización mejorado para la predicción del rendimiento de Apache Spark en un clúster Hadoop multinodo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un modelo de paralelización mejorado para la predicción del rendimiento de Apache Spark en un clúster Hadoop multinodo

Autores: Ahmed, Nasim; Barczak, Andre L. C.; Rashid, Mohammad A.; Susnjak, Teo

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Un modelo de paralelización mejorado para la predicción del rendimiento de Apache Spark en un clúster Hadoop multinodo

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Marcos de datos grandes

Apache spark

Predicción de rendimiento

Parámetros configurables

Modelos de paralelización

Predicción de tiempo de ejecución

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones

Los marcos de datos grandes juegan un papel vital en el almacenamiento, procesamiento y análisis de grandes conjuntos de datos. Apache Spark se ha establecido como uno de los motores de datos grandes más populares por su eficiencia y confiabilidad. Sin embargo, uno de los problemas significativos del sistema Spark es la predicción del rendimiento. Spark tiene más de 150 parámetros configurables, y la configuración de tantos parámetros es una tarea desafiante al determinar los parámetros adecuados para el sistema. En este documento, se proponen dos modelos de paralelización distintos para la predicción del rendimiento. Nuestra idea es que cada nodo en un clúster de Hadoop puede comunicarse con nodos idénticos, y una cierta función del tiempo de ejecución no paralelizable puede estimarse en consecuencia. Ambos modelos utilizan ecuaciones simples que nos permiten predecir el tiempo de ejecución cuando se conoce el tamaño del trabajo y el número de ejecutables. Los modelos propuestos fueron evaluados en base a cinco cargas de trabajo HiBench, Kmeans, PageRank, Graph (NWeight), SVM y WordCount. Los datos empíricos de las cargas de trabajo se ajustaron con uno de los dos modelos que cumplen con los requisitos de precisión. Finalmente, los hallazgos experimentales muestran que el modelo puede ser una herramienta útil y práctica para la programación y planificación del despliegue del sistema.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro