Mejorando el rendimiento de MapReduce para procesos en la nube a pequeña escala utilizando un mecanismo de ajuste dinámico de tareas
Autores: Huang, Tzu-Chi; Huang, Guo-Hao; Tsai, Ming-Fong
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Mejorando el rendimiento de MapReduce para procesos en la nube a pequeña escala utilizando un mecanismo de ajuste dinámico de tareas
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Mapreduce
Nodos trabajadores en la nube
Datos intermedios
Programa de reducción
Mecanismo de ajuste dinámico de tareas
Aplicación en la nube a pequeña escala.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
La arquitectura MapReduce puede distribuir de manera confiable conjuntos masivos de datos a nodos de trabajadores en la nube para su procesamiento. Cuando cada nodo de trabajador procesa los datos de entrada, el programa Map genera datos intermedios que son utilizados por el programa Reduce para la integración. Sin embargo, a medida que los nodos de trabajadores procesan las tareas de MapReduce, existen diferencias en la cantidad de datos intermedios creados, debido a la variación en los entornos del sistema operativo y los datos de entrada, lo que resulta en el fenómeno de nodos rezagados y afecta el tiempo de finalización de cada tarea de aplicación en la nube a pequeña escala. En este documento, proponemos un mecanismo de ajuste dinámico de tareas para un algoritmo de predicción del ciclo de procesamiento de datos intermedios, con el objetivo de mejorar el rendimiento de ejecución de aplicaciones en la nube a pequeña escala. Nuestro mecanismo ajusta dinámicamente la cantidad de tareas de los programas Map y Reduce en función de las capacidades de procesamiento de datos intermedios de cada nodo de trabajador en la nube, con el fin de mitigar el problema de degradación de rendimiento causado por las limitaciones en la plataforma de Google Cloud (clúster de Hadoop) debido al fenómeno de nodos rezagados. El mecanismo propuesto de ajuste dinámico de tareas se comparó con un sistema Hadoop simulado en un análisis de rendimiento, y se encontró una mejora de al menos el 5% en la eficiencia de procesamiento para una aplicación en la nube a pequeña escala.
Descripción
La arquitectura MapReduce puede distribuir de manera confiable conjuntos masivos de datos a nodos de trabajadores en la nube para su procesamiento. Cuando cada nodo de trabajador procesa los datos de entrada, el programa Map genera datos intermedios que son utilizados por el programa Reduce para la integración. Sin embargo, a medida que los nodos de trabajadores procesan las tareas de MapReduce, existen diferencias en la cantidad de datos intermedios creados, debido a la variación en los entornos del sistema operativo y los datos de entrada, lo que resulta en el fenómeno de nodos rezagados y afecta el tiempo de finalización de cada tarea de aplicación en la nube a pequeña escala. En este documento, proponemos un mecanismo de ajuste dinámico de tareas para un algoritmo de predicción del ciclo de procesamiento de datos intermedios, con el objetivo de mejorar el rendimiento de ejecución de aplicaciones en la nube a pequeña escala. Nuestro mecanismo ajusta dinámicamente la cantidad de tareas de los programas Map y Reduce en función de las capacidades de procesamiento de datos intermedios de cada nodo de trabajador en la nube, con el fin de mitigar el problema de degradación de rendimiento causado por las limitaciones en la plataforma de Google Cloud (clúster de Hadoop) debido al fenómeno de nodos rezagados. El mecanismo propuesto de ajuste dinámico de tareas se comparó con un sistema Hadoop simulado en un análisis de rendimiento, y se encontró una mejora de al menos el 5% en la eficiencia de procesamiento para una aplicación en la nube a pequeña escala.