Imapc: combinador de mapeo interno para mejorar el rendimiento de MapReduce en Hadoop
Autores: Kavitha, C.; Srividhya, S. R.; Lai, Wen-Cheng; Mani, Vinodhini
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Imapc: combinador de mapeo interno para mejorar el rendimiento de MapReduce en Hadoop
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Hadoop
Datos
Mapreduce
Algoritmo
Eficiencia
Programas mapreduce
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 45
Citaciones: Sin citaciones
Hadoop es un marco para almacenar y procesar grandes cantidades de datos. Con HDFS, se pueden gestionar conjuntos de datos grandes en hardware de bajo coste. MapReduce es un modelo de programación para procesar vastas cantidades de datos en paralelo. El mapeo y la reducción se pueden realizar utilizando el marco de programación MapReduce. Una cantidad muy grande de datos se transfiere del Mapper al Reducer sin ningún tipo de filtrado o recursión, lo que resulta en un ancho de banda sobregirado. En este documento, presentamos un algoritmo llamado Combinador de Mapeo Interno (IMapC) para la fase de mapeo. Este algoritmo en el Mapper combina los valores de claves recurrentes. Para probar la eficiencia del algoritmo, se probaron diferentes enfoques. Según la prueba, los programas de MapReduce que se implementan con el Combinador Predeterminado (DC) de IMapC serán un 70% más eficientes que aquellos que se implementan sin uno. Para hacer los cálculos significativamente más rápidos, este trabajo se puede combinar con MapReduce.
Descripción
Hadoop es un marco para almacenar y procesar grandes cantidades de datos. Con HDFS, se pueden gestionar conjuntos de datos grandes en hardware de bajo coste. MapReduce es un modelo de programación para procesar vastas cantidades de datos en paralelo. El mapeo y la reducción se pueden realizar utilizando el marco de programación MapReduce. Una cantidad muy grande de datos se transfiere del Mapper al Reducer sin ningún tipo de filtrado o recursión, lo que resulta en un ancho de banda sobregirado. En este documento, presentamos un algoritmo llamado Combinador de Mapeo Interno (IMapC) para la fase de mapeo. Este algoritmo en el Mapper combina los valores de claves recurrentes. Para probar la eficiencia del algoritmo, se probaron diferentes enfoques. Según la prueba, los programas de MapReduce que se implementan con el Combinador Predeterminado (DC) de IMapC serán un 70% más eficientes que aquellos que se implementan sin uno. Para hacer los cálculos significativamente más rápidos, este trabajo se puede combinar con MapReduce.