Un modelo para mejorar el tiempo de ejecución del almacén de datos grandes no estructurados

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un modelo para mejorar el tiempo de ejecución del almacén de datos grandes no estructurados

Autores: Farhan, Marwa Salah; Youssef, Amira; Abdelhamid, Laila

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Un modelo para mejorar el tiempo de ejecución del almacén de datos grandes no estructurados

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Almacenes de datos tradicionales

Inteligencia empresarial

Sistemas de soporte de decisiones

Grandes volúmenes de datos

ETL

Tiempo de ejecución

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones

Los almacenes de datos tradicionales (DWs) han desempeñado un papel clave en la inteligencia empresarial y los sistemas de apoyo a la toma de decisiones. Sin embargo, el rápido crecimiento de los datos generados por las aplicaciones actuales requiere nuevos sistemas de almacenamiento de datos. En el big data, es importante adaptar los sistemas de almacenes existentes para superar nuevos problemas y limitaciones. Los principales inconvenientes del tradicional Extract-Transform-Load (ETL) son que una gran cantidad de datos no se pueden procesar a través de ETL y que el tiempo de ejecución es muy alto cuando los datos son no estructurados. Este documento se centra en un nuevo modelo que consta de cuatro capas: Extract-Clean-Load-Transform (ECLT), diseñado para procesar grandes datos no estructurados, con un énfasis específico en texto. El modelo tiene como objetivo reducir el tiempo de ejecución a través de procedimientos experimentales. ECLT se aplica y se prueba utilizando Spark, que es un marco empleado en Python. Finalmente, este documento compara el tiempo de ejecución de ECLT con diferentes modelos aplicando dos conjuntos de datos. Los resultados experimentales mostraron que para un tamaño de datos de 1 TB, el tiempo de ejecución de ECLT es de 41,8 s. Cuando el tamaño de los datos aumenta a 1 millón de artículos, el tiempo de ejecución es de 119,6 s. Estos hallazgos demuestran que ECLT supera a ETL, ELT, DELT, ELTL y ELTA en términos de tiempo de ejecución.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro