Usando la Introspección para Recoger Procedencia en R
Autores: Lerner, Barbara; Boose, Emery; Perez, Luis
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Usando la Introspección para Recoger Procedencia en R
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Proveniencia de datos
RDataTracker
Valores de datos
Traza de ejecución
Datos intermedios
Gráfico de Derivación de Datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La procedencia de los datos es la historia de un elemento de datos desde el momento de su creación hasta su estado actual. Puede apoyar a la ciencia al mejorar la comprensión y la confianza en los datos. RDataTracker es un paquete de R que recopila la procedencia de los datos de scripts de R. Además de los detalles sobre entradas, salidas y el entorno de computación recopilados por la mayoría de las herramientas de procedencia, RDataTracker también registra un rastro de ejecución detallado y valores de datos intermedios. Lo hace utilizando las potentes funciones de introspección de R y analizando las declaraciones de R antes de enviarlas al intérprete para que sepa qué procedencia recopilar. La procedencia se almacena en una estructura gráfica especializada llamada Grafo de Derivación de Datos, que hace posible determinar exactamente cómo se calcula un valor de salida o cómo se utiliza un valor de entrada. En este documento, proporcionamos detalles sobre la procedencia que RDataTracker recopila y los mecanismos utilizados para recopilarla. También especulamos sobre cómo esta rica fuente de información podría ser utilizada por otras herramientas para ayudar a un programador de R a obtener una comprensión más profunda del software utilizado y para apoyar la reproducibilidad.
Descripción
La procedencia de los datos es la historia de un elemento de datos desde el momento de su creación hasta su estado actual. Puede apoyar a la ciencia al mejorar la comprensión y la confianza en los datos. RDataTracker es un paquete de R que recopila la procedencia de los datos de scripts de R. Además de los detalles sobre entradas, salidas y el entorno de computación recopilados por la mayoría de las herramientas de procedencia, RDataTracker también registra un rastro de ejecución detallado y valores de datos intermedios. Lo hace utilizando las potentes funciones de introspección de R y analizando las declaraciones de R antes de enviarlas al intérprete para que sepa qué procedencia recopilar. La procedencia se almacena en una estructura gráfica especializada llamada Grafo de Derivación de Datos, que hace posible determinar exactamente cómo se calcula un valor de salida o cómo se utiliza un valor de entrada. En este documento, proporcionamos detalles sobre la procedencia que RDataTracker recopila y los mecanismos utilizados para recopilarla. También especulamos sobre cómo esta rica fuente de información podría ser utilizada por otras herramientas para ayudar a un programador de R a obtener una comprensión más profunda del software utilizado y para apoyar la reproducibilidad.