Una Estrategia de Calidad de Datos para Habilitar el Acceso Programático FAIR a través de Grandes y Diversas Colecciones de Datos para un Análisis de Datos de Alto Rendimiento
Autores: Evans, Ben; Druken, Kelsey; Wang, Jingbo; Yang, Rui; Richards, Clare; Wyborn, Lesley
Idioma: Inglés
Editor: MDPI
Año: 2017
Acceso abierto
Artículo científico
2017
Una Estrategia de Calidad de Datos para Habilitar el Acceso Programático FAIR a través de Grandes y Diversas Colecciones de Datos para un Análisis de Datos de Alto Rendimiento
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Metodología
Estrategia de calidad de datos
Computación de alto rendimiento
Control de calidad
Aseguramiento de la calidad
Interoperabilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 2
Citaciones: Sin citaciones
Para garantizar un acceso programático y sin interrupciones a los datos para la Computación de Alto Rendimiento (HPC) y el análisis en múltiples dominios de investigación, es vital tener una metodología para la estandarización tanto de los datos como de los servicios. En la Infraestructura Nacional de Computación de Australia (NCI) hemos desarrollado una Estrategia de Calidad de Datos (DQS) que actualmente proporciona procesos para: (1) Consistencia de las estructuras de datos necesarias para una plataforma de Datos de Alto Rendimiento (HPD); (2) Control de Calidad (QC) a través del cumplimiento de estándares comunitarios reconocidos; (3) Casos de referencia de pruebas de rendimiento operativo; y (4) Aseguramiento de Calidad (QA) de los datos a través de la funcionalidad y rendimiento demostrados en plataformas, herramientas y servicios comunes. Al implementar la DQS de NCI, hemos visto una mejora progresiva en la calidad y utilidad de los conjuntos de datos en los diferentes dominios temáticos, y hemos demostrado la facilidad con la que se pueden utilizar métodos programáticos modernos para acceder a los datos, ya sea in situ o a través de servicios web, y para usos que van desde métodos de análisis tradicionales hasta técnicas emergentes de aprendizaje automático. Para ayudar a aumentar la reutilización de datos por parte de comunidades más amplias, particularmente en entornos de alto rendimiento, la DQS también se utiliza para identificar la necesidad de cualquier extensión a los estándares internacionales relevantes para la interoperabilidad y/o el acceso programático.
Descripción
Para garantizar un acceso programático y sin interrupciones a los datos para la Computación de Alto Rendimiento (HPC) y el análisis en múltiples dominios de investigación, es vital tener una metodología para la estandarización tanto de los datos como de los servicios. En la Infraestructura Nacional de Computación de Australia (NCI) hemos desarrollado una Estrategia de Calidad de Datos (DQS) que actualmente proporciona procesos para: (1) Consistencia de las estructuras de datos necesarias para una plataforma de Datos de Alto Rendimiento (HPD); (2) Control de Calidad (QC) a través del cumplimiento de estándares comunitarios reconocidos; (3) Casos de referencia de pruebas de rendimiento operativo; y (4) Aseguramiento de Calidad (QA) de los datos a través de la funcionalidad y rendimiento demostrados en plataformas, herramientas y servicios comunes. Al implementar la DQS de NCI, hemos visto una mejora progresiva en la calidad y utilidad de los conjuntos de datos en los diferentes dominios temáticos, y hemos demostrado la facilidad con la que se pueden utilizar métodos programáticos modernos para acceder a los datos, ya sea in situ o a través de servicios web, y para usos que van desde métodos de análisis tradicionales hasta técnicas emergentes de aprendizaje automático. Para ayudar a aumentar la reutilización de datos por parte de comunidades más amplias, particularmente en entornos de alto rendimiento, la DQS también se utiliza para identificar la necesidad de cualquier extensión a los estándares internacionales relevantes para la interoperabilidad y/o el acceso programático.