PerTract: extracción de modelos y especificación de sistemas de big data para la predicción de rendimiento a través del ejemplo de Apache Spark y Hadoop
Autores: Kroß, Johannes; Krcmar, Helmut
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
PerTract: extracción de modelos y especificación de sistemas de big data para la predicción de rendimiento a través del ejemplo de Apache Spark y Hadoop
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Aplicaciones de big data
Predicción de rendimiento
Especificaciones del sistema
Lenguaje específico del dominio
Apache Spark
Apache Hadoop
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 48
Citaciones: Sin citaciones
Evaluar y predecir el rendimiento de las aplicaciones de big data es necesario para dimensionar eficientemente las capacidades y gestionar las operaciones. Ganar una comprensión profunda de la arquitectura del sistema, las dependencias de los componentes, las demandas de recursos y las configuraciones causa dificultades a los ingenieros. Para abordar estos desafíos, este documento presenta un enfoque para extraer y transformar automáticamente las especificaciones del sistema para predecir el rendimiento de las aplicaciones. Consta de tres componentes. Primero, un lenguaje específico del dominio (DSL) agnóstico del sistema y la herramienta permite la modelización de factores relevantes para el rendimiento de las aplicaciones de big data, los recursos informáticos y la carga de trabajo de datos. En segundo lugar, las instancias de DSL se extraen automáticamente de las mediciones monitoreadas de los sistemas Apache Spark y Apache Hadoop (es decir, YARN y HDFS). En tercer lugar, estas instancias se transforman en herramientas de evaluación de rendimiento basadas en modelos y simulaciones para permitir predicciones. Al adaptar las instancias de DSL, nuestro enfoque permite a los ingenieros predecir el rendimiento de las aplicaciones para diferentes escenarios, como cambios en la entrada de datos y recursos. Evaluamos nuestro enfoque al predecir el rendimiento de las aplicaciones de regresión lineal y bosque aleatorio de la suite de pruebas HiBench. Los resultados de la simulación de las instancias de DSL ajustadas en comparación con los resultados de las mediciones muestran errores de predicción precisos por debajo del 15% basados en promedios para los tiempos de respuesta y la utilización de recursos.
Descripción
Evaluar y predecir el rendimiento de las aplicaciones de big data es necesario para dimensionar eficientemente las capacidades y gestionar las operaciones. Ganar una comprensión profunda de la arquitectura del sistema, las dependencias de los componentes, las demandas de recursos y las configuraciones causa dificultades a los ingenieros. Para abordar estos desafíos, este documento presenta un enfoque para extraer y transformar automáticamente las especificaciones del sistema para predecir el rendimiento de las aplicaciones. Consta de tres componentes. Primero, un lenguaje específico del dominio (DSL) agnóstico del sistema y la herramienta permite la modelización de factores relevantes para el rendimiento de las aplicaciones de big data, los recursos informáticos y la carga de trabajo de datos. En segundo lugar, las instancias de DSL se extraen automáticamente de las mediciones monitoreadas de los sistemas Apache Spark y Apache Hadoop (es decir, YARN y HDFS). En tercer lugar, estas instancias se transforman en herramientas de evaluación de rendimiento basadas en modelos y simulaciones para permitir predicciones. Al adaptar las instancias de DSL, nuestro enfoque permite a los ingenieros predecir el rendimiento de las aplicaciones para diferentes escenarios, como cambios en la entrada de datos y recursos. Evaluamos nuestro enfoque al predecir el rendimiento de las aplicaciones de regresión lineal y bosque aleatorio de la suite de pruebas HiBench. Los resultados de la simulación de las instancias de DSL ajustadas en comparación con los resultados de las mediciones muestran errores de predicción precisos por debajo del 15% basados en promedios para los tiempos de respuesta y la utilización de recursos.