EverAnalyzer: Una Plataforma de Gestión de Big Data Autoajustable que Explota el Ecosistema Hadoop
Autores: Karamolegkos, Panagiotis; Mavrogiorgou, Argyro; Kiourtis, Athanasios; Kyriazis, Dimosthenis
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
EverAnalyzer: Una Plataforma de Gestión de Big Data Autoajustable que Explota el Ecosistema Hadoop
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Big data
Procesamiento de datos
Análisis
Marcos
Hadoop MapReduce
Spark
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Big Data es un fenómeno que afecta al mundo actual, con nuevos datos generándose cada segundo. Las empresas de hoy enfrentan grandes desafíos debido a la creciente diversidad de datos, así como al indexado, búsqueda y análisis de cantidades tan enormes de datos. En este contexto, existen varios marcos y bibliotecas para procesar y analizar Big Data. Entre esos marcos, Hadoop MapReduce, Mahout, Spark y MLlib parecen ser los más populares, aunque no está claro cuál de ellos se adapta mejor y rinde en varios escenarios de procesamiento y análisis de datos. Este documento propone EverAnalyzer, una plataforma de gestión de Big Data autoajustable construida para llenar este vacío aprovechando todos estos marcos. La plataforma es capaz de recopilar datos tanto de manera continua como por lotes, utilizando los metadatos obtenidos de los procesos de procesamiento y análisis de sus usuarios aplicados a los datos recopilados. Basado en estos metadatos, la plataforma recomienda el marco óptimo para las actividades de procesamiento/analíticas de datos que los usuarios pretenden ejecutar. Para verificar la eficiencia de la plataforma, se llevaron a cabo numerosos experimentos utilizando 30 conjuntos de datos diversos relacionados con varias enfermedades. Los resultados revelaron que EverAnalyzer sugirió correctamente el marco óptimo en el 80% de los casos, lo que indica que la plataforma hizo las mejores selecciones en la mayoría de los experimentos.
Descripción
Big Data es un fenómeno que afecta al mundo actual, con nuevos datos generándose cada segundo. Las empresas de hoy enfrentan grandes desafíos debido a la creciente diversidad de datos, así como al indexado, búsqueda y análisis de cantidades tan enormes de datos. En este contexto, existen varios marcos y bibliotecas para procesar y analizar Big Data. Entre esos marcos, Hadoop MapReduce, Mahout, Spark y MLlib parecen ser los más populares, aunque no está claro cuál de ellos se adapta mejor y rinde en varios escenarios de procesamiento y análisis de datos. Este documento propone EverAnalyzer, una plataforma de gestión de Big Data autoajustable construida para llenar este vacío aprovechando todos estos marcos. La plataforma es capaz de recopilar datos tanto de manera continua como por lotes, utilizando los metadatos obtenidos de los procesos de procesamiento y análisis de sus usuarios aplicados a los datos recopilados. Basado en estos metadatos, la plataforma recomienda el marco óptimo para las actividades de procesamiento/analíticas de datos que los usuarios pretenden ejecutar. Para verificar la eficiencia de la plataforma, se llevaron a cabo numerosos experimentos utilizando 30 conjuntos de datos diversos relacionados con varias enfermedades. Los resultados revelaron que EverAnalyzer sugirió correctamente el marco óptimo en el 80% de los casos, lo que indica que la plataforma hizo las mejores selecciones en la mayoría de los experimentos.