Un modelo para mejorar el tiempo de ejecución del almacén de datos grandes no estructurados
Autores: Farhan, Marwa Salah; Youssef, Amira; Abdelhamid, Laila
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un modelo para mejorar el tiempo de ejecución del almacén de datos grandes no estructurados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Almacenes de datos tradicionales
Inteligencia empresarial
Sistemas de soporte de decisiones
Grandes volúmenes de datos
ETL
Tiempo de ejecución
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
Los almacenes de datos tradicionales (DWs) han desempeñado un papel clave en la inteligencia empresarial y los sistemas de apoyo a la toma de decisiones. Sin embargo, el rápido crecimiento de los datos generados por las aplicaciones actuales requiere nuevos sistemas de almacenamiento de datos. En el big data, es importante adaptar los sistemas de almacenes existentes para superar nuevos problemas y limitaciones. Los principales inconvenientes del tradicional Extract-Transform-Load (ETL) son que una gran cantidad de datos no se pueden procesar a través de ETL y que el tiempo de ejecución es muy alto cuando los datos son no estructurados. Este documento se centra en un nuevo modelo que consta de cuatro capas: Extract-Clean-Load-Transform (ECLT), diseñado para procesar grandes datos no estructurados, con un énfasis específico en texto. El modelo tiene como objetivo reducir el tiempo de ejecución a través de procedimientos experimentales. ECLT se aplica y se prueba utilizando Spark, que es un marco empleado en Python. Finalmente, este documento compara el tiempo de ejecución de ECLT con diferentes modelos aplicando dos conjuntos de datos. Los resultados experimentales mostraron que para un tamaño de datos de 1 TB, el tiempo de ejecución de ECLT es de 41,8 s. Cuando el tamaño de los datos aumenta a 1 millón de artículos, el tiempo de ejecución es de 119,6 s. Estos hallazgos demuestran que ECLT supera a ETL, ELT, DELT, ELTL y ELTA en términos de tiempo de ejecución.
Descripción
Los almacenes de datos tradicionales (DWs) han desempeñado un papel clave en la inteligencia empresarial y los sistemas de apoyo a la toma de decisiones. Sin embargo, el rápido crecimiento de los datos generados por las aplicaciones actuales requiere nuevos sistemas de almacenamiento de datos. En el big data, es importante adaptar los sistemas de almacenes existentes para superar nuevos problemas y limitaciones. Los principales inconvenientes del tradicional Extract-Transform-Load (ETL) son que una gran cantidad de datos no se pueden procesar a través de ETL y que el tiempo de ejecución es muy alto cuando los datos son no estructurados. Este documento se centra en un nuevo modelo que consta de cuatro capas: Extract-Clean-Load-Transform (ECLT), diseñado para procesar grandes datos no estructurados, con un énfasis específico en texto. El modelo tiene como objetivo reducir el tiempo de ejecución a través de procedimientos experimentales. ECLT se aplica y se prueba utilizando Spark, que es un marco empleado en Python. Finalmente, este documento compara el tiempo de ejecución de ECLT con diferentes modelos aplicando dos conjuntos de datos. Los resultados experimentales mostraron que para un tamaño de datos de 1 TB, el tiempo de ejecución de ECLT es de 41,8 s. Cuando el tamaño de los datos aumenta a 1 millón de artículos, el tiempo de ejecución es de 119,6 s. Estos hallazgos demuestran que ECLT supera a ETL, ELT, DELT, ELTL y ELTA en términos de tiempo de ejecución.