Mapas: enfoques metaheurísticos para la partición de sesgo en MapReduce
Autores: Pericini, Matheus H. M.; Leite, Lucas G. M.; de Carvalho-Junior, Francisco H.; Machado, Javam C.; Rezende, Cenez A.
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Mapas: enfoques metaheurísticos para la partición de sesgo en MapReduce
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Mapreduce
Computación paralela
Conjunto de datos
Particionamiento de sesgo
Metaheurísticas
Evaluación experimental
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
MapReduce es un modelo de computación paralela en el que un gran conjunto de datos se divide en partes más pequeñas y se ejecuta en múltiples máquinas. Debido a su simplicidad, MapReduce se ha utilizado ampliamente en diversos dominios de aplicaciones. MapReduce puede reducir significativamente el tiempo de procesamiento de una gran cantidad de datos al dividir el conjunto de datos en partes más pequeñas y procesarlas en paralelo en múltiples máquinas. Sin embargo, cuando los datos no están distribuidos uniformemente, tenemos lo que se llama desequilibrio de partición, donde la asignación de tareas a las máquinas se vuelve desequilibrada, ya sea porque la función de distribución divide el conjunto de datos de manera desigual o porque una parte de los datos es más compleja y requiere un mayor esfuerzo computacional. Para resolver este problema, proponemos un enfoque basado en metaheurísticas. Para fines de evaluación, se implementaron tres metaheurísticas: Recocido Simulado, Búsqueda Local y Búsqueda Estocástica. Nuestra evaluación experimental, utilizando una implementación de MapReduce del Algoritmo de Clique de Bron-Kerbosch, muestra que el método propuesto puede encontrar buenas particiones mientras equilibra mejor los datos entre las máquinas.
Descripción
MapReduce es un modelo de computación paralela en el que un gran conjunto de datos se divide en partes más pequeñas y se ejecuta en múltiples máquinas. Debido a su simplicidad, MapReduce se ha utilizado ampliamente en diversos dominios de aplicaciones. MapReduce puede reducir significativamente el tiempo de procesamiento de una gran cantidad de datos al dividir el conjunto de datos en partes más pequeñas y procesarlas en paralelo en múltiples máquinas. Sin embargo, cuando los datos no están distribuidos uniformemente, tenemos lo que se llama desequilibrio de partición, donde la asignación de tareas a las máquinas se vuelve desequilibrada, ya sea porque la función de distribución divide el conjunto de datos de manera desigual o porque una parte de los datos es más compleja y requiere un mayor esfuerzo computacional. Para resolver este problema, proponemos un enfoque basado en metaheurísticas. Para fines de evaluación, se implementaron tres metaheurísticas: Recocido Simulado, Búsqueda Local y Búsqueda Estocástica. Nuestra evaluación experimental, utilizando una implementación de MapReduce del Algoritmo de Clique de Bron-Kerbosch, muestra que el método propuesto puede encontrar buenas particiones mientras equilibra mejor los datos entre las máquinas.