logo móvil
Contáctanos

Hadoop vs. Spark: impacto en el rendimiento del motor de consulta Hammer para corpora de datos abiertos

Autores: Pelucchi, Mauro; Psaila, Giuseppe; Toccu, Maurizio

Idioma: Inglés

Editor: MDPI

Año: 2018

Descargar PDF

Acceso abierto

Artículo científico
2018

Hadoop vs. Spark: impacto en el rendimiento del motor de consulta Hammer para corpora de datos abiertos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Motor de consulta
Consulta ciega
Datos Abiertos
Paradigma Map-Reduce
Paralelizar
Marcos de trabajo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones


Descripción
El prototipo es un motor de consulta para corpora de Datos Abiertos que proporciona a los usuarios el concepto de consulta ciega. Dado que los conjuntos de datos publicados en los portales de Datos Abiertos son heterogéneos, los usuarios que desean encontrar conjuntos de datos interesantes están a ciegas: las consultas no pueden especificarse completamente, como en el caso de las bases de datos. Por lo tanto, el motor de consulta es responsable de reescribir y adaptar la consulta ciega a los conjuntos de datos reales, explotando la similitud léxica y semántica. La efectividad de este enfoque se discutió en nuestros trabajos anteriores. En este documento, informamos sobre nuestra experiencia en el desarrollo del motor de consulta. De hecho, en la primera versión del prototipo, nos dimos cuenta de que la implementación de la técnica de recuperación era demasiado lenta, a pesar de que los corpora contenían solo unos pocos miles de conjuntos de datos. Decidimos adoptar el paradigma Map-Reduce, para paralelizar el motor de consulta y mejorar el rendimiento. Pasamos por varias versiones del motor de consulta, ya sea basadas en el marco o en el marco. y son dos marcos muy populares para escribir y ejecutar algoritmos paralelos basados en el paradigma Map-Reduce. En este documento, presentamos nuestro estudio sobre el impacto de adoptar el enfoque Map-Reduce y sus dos marcos más famosos para paralelizar el motor de consulta; discutimos varias implementaciones del motor de consulta, ya sea obtenidas sin reescribir significativamente el algoritmo o obtenidas al reescribir completamente el algoritmo explotando las abstracciones de alto nivel proporcionadas por . La campaña experimental que realizamos muestra los beneficios proporcionados por cada solución estudiada, con la perspectiva de avanzar hacia Big Data en el futuro. Las lecciones que aprendimos se recopilan y sintetizan en pautas de comportamiento para los desarrolladores que abordan el problema de paralelizar algoritmos mediante marcos de Map-Reduce.

Otros recursos que podrían interesarte

Temas Virtualpro