Despliegue de Clúster Hadoop: Un Enfoque Metodológico
Autores: Correia, Ronaldo Celso Messias; Spadon, Gabriel; De Andrade Gomes, Pedro Henrique; Eler, Danilo Medeiros; Garcia, Rogério Eduardo; Olivete Junior, Celso
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Despliegue de Clúster Hadoop: Un Enfoque Metodológico
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Datos
Información
Marcos
Hadoop
Escalabilidad
Análisis
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Durante mucho tiempo, los datos han sido tratados como un problema general porque solo representan fracciones de un evento sin ningún propósito relevante. Sin embargo, la última década ha estado centrada en la información y en cómo obtenerla. Al buscar significado en los datos y tratar de resolver problemas de escalabilidad, se han desarrollado muchos marcos para mejorar el almacenamiento de datos y su análisis. Como marco, Hadoop se presentó como una herramienta poderosa para manejar grandes cantidades de datos. Sin embargo, todavía genera dudas sobre cómo manejar su implementación y si existe algún método confiable para comparar el rendimiento de distintos clústeres de Hadoop. Este documento presenta una metodología basada en el análisis de benchmarks para guiar la implementación del clúster de Hadoop. Los experimentos emplearon Apache Hadoop y las distribuciones de Hadoop de Cloudera, Hortonworks y MapR, analizando las arquitecturas en local y en la nube, utilizando servidores centralizados y distribuidos geográficamente. Los resultados muestran que la metodología puede aplicarse de manera dinámica en una comparación confiable entre diferentes arquitecturas. Además, el estudio sugiere que el conocimiento adquirido puede utilizarse para mejorar el proceso de análisis de datos al comprender la arquitectura de Hadoop.
Descripción
Durante mucho tiempo, los datos han sido tratados como un problema general porque solo representan fracciones de un evento sin ningún propósito relevante. Sin embargo, la última década ha estado centrada en la información y en cómo obtenerla. Al buscar significado en los datos y tratar de resolver problemas de escalabilidad, se han desarrollado muchos marcos para mejorar el almacenamiento de datos y su análisis. Como marco, Hadoop se presentó como una herramienta poderosa para manejar grandes cantidades de datos. Sin embargo, todavía genera dudas sobre cómo manejar su implementación y si existe algún método confiable para comparar el rendimiento de distintos clústeres de Hadoop. Este documento presenta una metodología basada en el análisis de benchmarks para guiar la implementación del clúster de Hadoop. Los experimentos emplearon Apache Hadoop y las distribuciones de Hadoop de Cloudera, Hortonworks y MapR, analizando las arquitecturas en local y en la nube, utilizando servidores centralizados y distribuidos geográficamente. Los resultados muestran que la metodología puede aplicarse de manera dinámica en una comparación confiable entre diferentes arquitecturas. Además, el estudio sugiere que el conocimiento adquirido puede utilizarse para mejorar el proceso de análisis de datos al comprender la arquitectura de Hadoop.