Aplicando el proceso ETL a los datos de blockchain. Perspectivas y hallazgos
Autores: Galici, Roberta; Ordile, Laura; Marchesi, Michele; Pinna, Andrea; Tonelli, Roberto
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Aplicando el proceso ETL a los datos de blockchain. Perspectivas y hallazgos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Estrategia
Extracción de datos
Blockchain
Agrupamiento
Base de datos
Proceso ETL
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Presentamos una estrategia novedosa, basada en el proceso de Extraer, Transformar y Cargar (ETL), para recopilar datos de una blockchain, elaborarlos y ponerlos a disposición para un análisis posterior. El estudio tiene como objetivo satisfacer la necesidad de estrategias de extracción de datos cada vez más eficientes y métodos de representación efectivos para los datos de blockchain. Por esta razón, concebimos un sistema para escalar el proceso de extracción y agrupamiento de datos de blockchain, y proporcionar una base de datos SQL que preserve la distinción entre transacciones y direcciones. El sistema propuesto satisface la necesidad de agrupar direcciones en entidades y la necesidad de almacenar los datos extraídos en una base de datos convencional, haciendo posible el análisis de datos mediante consultas a la base de datos. En general, los procesos ETL permiten la automatización de la operación de selección de datos, recopilación de datos y acondicionamiento de datos desde un almacén de datos, y producen datos de salida en el mejor formato para el procesamiento posterior o para el negocio. Nos enfocamos en las transacciones de la blockchain de Bitcoin, que organizamos en una base de datos relacional para distinguir entre la sección de entrada y la sección de salida de cada transacción. Describimos la implementación de algoritmos de agrupamiento de direcciones específicos para la blockchain de Bitcoin y el proceso para recopilar y transformar datos y cargarlos en la base de datos. Para equilibrar la tasa de datos de entrada con el tiempo de elaboración, gestionamos los datos de blockchain de acuerdo con la arquitectura lambda. Para evaluar nuestro proceso, primero analizamos el rendimiento en términos de escalabilidad, y luego verificamos su usabilidad analizando los datos cargados. Finalmente, presentamos los resultados de un análisis preliminar, que proporciona algunos hallazgos sobre los datos de blockchain, centrándonos en una comparación entre las estadísticas del último año de transacciones y los resultados anteriores de datos históricos de blockchain encontrados en la literatura. El proceso ETL que realizamos para analizar datos de blockchain ha demostrado ser capaz de llevar a cabo un proceso de adquisición de datos confiable y escalable, cuyo resultado hace que los datos almacenados estén disponibles para un análisis y negocio posteriores.
Descripción
Presentamos una estrategia novedosa, basada en el proceso de Extraer, Transformar y Cargar (ETL), para recopilar datos de una blockchain, elaborarlos y ponerlos a disposición para un análisis posterior. El estudio tiene como objetivo satisfacer la necesidad de estrategias de extracción de datos cada vez más eficientes y métodos de representación efectivos para los datos de blockchain. Por esta razón, concebimos un sistema para escalar el proceso de extracción y agrupamiento de datos de blockchain, y proporcionar una base de datos SQL que preserve la distinción entre transacciones y direcciones. El sistema propuesto satisface la necesidad de agrupar direcciones en entidades y la necesidad de almacenar los datos extraídos en una base de datos convencional, haciendo posible el análisis de datos mediante consultas a la base de datos. En general, los procesos ETL permiten la automatización de la operación de selección de datos, recopilación de datos y acondicionamiento de datos desde un almacén de datos, y producen datos de salida en el mejor formato para el procesamiento posterior o para el negocio. Nos enfocamos en las transacciones de la blockchain de Bitcoin, que organizamos en una base de datos relacional para distinguir entre la sección de entrada y la sección de salida de cada transacción. Describimos la implementación de algoritmos de agrupamiento de direcciones específicos para la blockchain de Bitcoin y el proceso para recopilar y transformar datos y cargarlos en la base de datos. Para equilibrar la tasa de datos de entrada con el tiempo de elaboración, gestionamos los datos de blockchain de acuerdo con la arquitectura lambda. Para evaluar nuestro proceso, primero analizamos el rendimiento en términos de escalabilidad, y luego verificamos su usabilidad analizando los datos cargados. Finalmente, presentamos los resultados de un análisis preliminar, que proporciona algunos hallazgos sobre los datos de blockchain, centrándonos en una comparación entre las estadísticas del último año de transacciones y los resultados anteriores de datos históricos de blockchain encontrados en la literatura. El proceso ETL que realizamos para analizar datos de blockchain ha demostrado ser capaz de llevar a cabo un proceso de adquisición de datos confiable y escalable, cuyo resultado hace que los datos almacenados estén disponibles para un análisis y negocio posteriores.