Un amplio nivel basado en Spark para convertir bases de datos relacionales a NoSQL
Autores: Abdel-Fattah, Manal A.; Mohamed, Wael; Abdelgaber, Sayed
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un amplio nivel basado en Spark para convertir bases de datos relacionales a NoSQL
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Crecimiento
Grandes datos
NoSQL
Bases de datos relacionales
Capa basada en Spark
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
Actualmente, el continuo crecimiento masivo en el tamaño, variedad y velocidad de los datos se define como big data. Las bases de datos relacionales tienen una capacidad limitada para trabajar con big data. En consecuencia, no solo se utilizaron bases de datos de lenguaje de consulta estructurado (NoSQL) para manejar big data porque NoSQL representa datos en diversos modelos y utiliza una variedad de lenguajes de consulta, a diferencia de las bases de datos relacionales tradicionales. Por lo tanto, el uso de NoSQL se ha vuelto esencial, y muchos estudios han intentado proponer diferentes capas para convertir bases de datos relacionales a NoSQL; sin embargo, la mayoría de ellos se centraron solo en uno o dos modelos de NoSQL, y evaluaron sus capas en un único nodo, no en un entorno distribuido. Este estudio propone una capa basada en Spark para mapear bases de datos relacionales a modelos NoSQL, centrándose en las bases de datos de documentos, columnas y clave-valor de los modelos NoSQL. La capa propuesta basada en Spark consta de dos partes. La primera parte se ocupa de convertir bases de datos relacionales en bases de datos de documentos, columnas y clave-valor, y abarca dos fases: un analizador de metadatos de bases de datos relacionales y transformación y migración basadas en Spark. La segunda parte se centra en ejecutar un lenguaje de consulta estructurado (SQL) en el NoSQL. La capa sugerida se aplicó y se comparó con Unity, ya que tiene componentes y características similares y admite subconsultas y operaciones de unión en un entorno de un solo nodo. Los resultados experimentales muestran que la capa propuesta superó a Unity en términos del tiempo de ejecución de la consulta en un factor de tres. Además, la capa propuesta se aplicó a clústeres de múltiples nodos utilizando diferentes escenarios, y los resultados muestran que la integración entre el clúster de Spark y las bases de datos NoSQL en clústeres de múltiples nodos proporcionó un mejor rendimiento en lectura y escritura al aumentar el tamaño del conjunto de datos que utilizando un solo nodo.
Descripción
Actualmente, el continuo crecimiento masivo en el tamaño, variedad y velocidad de los datos se define como big data. Las bases de datos relacionales tienen una capacidad limitada para trabajar con big data. En consecuencia, no solo se utilizaron bases de datos de lenguaje de consulta estructurado (NoSQL) para manejar big data porque NoSQL representa datos en diversos modelos y utiliza una variedad de lenguajes de consulta, a diferencia de las bases de datos relacionales tradicionales. Por lo tanto, el uso de NoSQL se ha vuelto esencial, y muchos estudios han intentado proponer diferentes capas para convertir bases de datos relacionales a NoSQL; sin embargo, la mayoría de ellos se centraron solo en uno o dos modelos de NoSQL, y evaluaron sus capas en un único nodo, no en un entorno distribuido. Este estudio propone una capa basada en Spark para mapear bases de datos relacionales a modelos NoSQL, centrándose en las bases de datos de documentos, columnas y clave-valor de los modelos NoSQL. La capa propuesta basada en Spark consta de dos partes. La primera parte se ocupa de convertir bases de datos relacionales en bases de datos de documentos, columnas y clave-valor, y abarca dos fases: un analizador de metadatos de bases de datos relacionales y transformación y migración basadas en Spark. La segunda parte se centra en ejecutar un lenguaje de consulta estructurado (SQL) en el NoSQL. La capa sugerida se aplicó y se comparó con Unity, ya que tiene componentes y características similares y admite subconsultas y operaciones de unión en un entorno de un solo nodo. Los resultados experimentales muestran que la capa propuesta superó a Unity en términos del tiempo de ejecución de la consulta en un factor de tres. Además, la capa propuesta se aplicó a clústeres de múltiples nodos utilizando diferentes escenarios, y los resultados muestran que la integración entre el clúster de Spark y las bases de datos NoSQL en clústeres de múltiples nodos proporcionó un mejor rendimiento en lectura y escritura al aumentar el tamaño del conjunto de datos que utilizando un solo nodo.