logo móvil
Contáctanos

Un modelo para mejorar el tiempo de ejecución del almacén de datos grandes no estructurados

Autores: Farhan, Marwa Salah; Youssef, Amira; Abdelhamid, Laila

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un modelo para mejorar el tiempo de ejecución del almacén de datos grandes no estructurados


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Almacenes de datos tradicionales
Inteligencia empresarial
Sistemas de soporte de decisiones
Grandes volúmenes de datos
ETL
Tiempo de ejecución

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones


Descripción
Los almacenes de datos tradicionales (DWs) han desempeñado un papel clave en la inteligencia empresarial y los sistemas de apoyo a la toma de decisiones. Sin embargo, el rápido crecimiento de los datos generados por las aplicaciones actuales requiere nuevos sistemas de almacenamiento de datos. En el big data, es importante adaptar los sistemas de almacenes existentes para superar nuevos problemas y limitaciones. Los principales inconvenientes del tradicional Extract-Transform-Load (ETL) son que una gran cantidad de datos no se pueden procesar a través de ETL y que el tiempo de ejecución es muy alto cuando los datos son no estructurados. Este documento se centra en un nuevo modelo que consta de cuatro capas: Extract-Clean-Load-Transform (ECLT), diseñado para procesar grandes datos no estructurados, con un énfasis específico en texto. El modelo tiene como objetivo reducir el tiempo de ejecución a través de procedimientos experimentales. ECLT se aplica y se prueba utilizando Spark, que es un marco empleado en Python. Finalmente, este documento compara el tiempo de ejecución de ECLT con diferentes modelos aplicando dos conjuntos de datos. Los resultados experimentales mostraron que para un tamaño de datos de 1 TB, el tiempo de ejecución de ECLT es de 41,8 s. Cuando el tamaño de los datos aumenta a 1 millón de artículos, el tiempo de ejecución es de 119,6 s. Estos hallazgos demuestran que ECLT supera a ETL, ELT, DELT, ELTL y ELTA en términos de tiempo de ejecución.

Otros recursos que podrían interesarte

Temas Virtualpro