Visión general de STEM Ciencia como Proceso, Método, Material y Entidades Nombradas de Datos
Autores: D"Souza, Jennifer
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Visión general de STEM Ciencia como Proceso, Método, Material y Entidades Nombradas de Datos
Categoría
Gestión y administración
Subcategoría
Gestión del conocimiento
Palabras clave
Publicaciones académicas
Bibliotecas digitales
Grafos de Conocimiento
Conjunto de datos estructurado
Artículos STEM
Corpus multidisciplinario
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Nos enfrentamos a una producción sin precedentes en publicaciones académicas en todo el mundo. Los interesados en las bibliotecas digitales sostienen que el paradigma de publicación basado en documentos ha alcanzado los límites de la adecuación. En cambio, se aboga firmemente por la publicación de conocimiento académico estructurado, interpretable por máquinas y de alta resolución como Grafos de Conocimiento (KG). En este trabajo, desarrollamos y analizamos un conjunto de datos estructurado a gran escala de artículos de STEM en 10 disciplinas diferentes. Nuestro análisis se define sobre un corpus a gran escala que comprende 60,000 resúmenes estructurados como cuatro entidades científicas: proceso, método, material y datos. Así, nuestro estudio presenta, por primera vez, un análisis de un corpus multidisciplinario a gran escala bajo la construcción de cuatro etiquetas de entidades nombradas que están específicamente definidas y seleccionadas para ser independientes del dominio, en contraposición a ser específicas del dominio. El trabajo es, por tanto, inadvertidamente una prueba de viabilidad para caracterizar la ciencia multidisciplinaria con conceptos independientes del dominio. Además, para resumir las distintas facetas del conocimiento científico por concepto y por disciplina, se ofrecen un conjunto de visualizaciones en forma de nubes de palabras. El corpus STEM-NER-60k, creado en este trabajo, comprende más de 1 millón de entidades extraídas de 60,000 artículos de STEM obtenidos de una importante plataforma de publicación y se publica de forma pública.
Descripción
Nos enfrentamos a una producción sin precedentes en publicaciones académicas en todo el mundo. Los interesados en las bibliotecas digitales sostienen que el paradigma de publicación basado en documentos ha alcanzado los límites de la adecuación. En cambio, se aboga firmemente por la publicación de conocimiento académico estructurado, interpretable por máquinas y de alta resolución como Grafos de Conocimiento (KG). En este trabajo, desarrollamos y analizamos un conjunto de datos estructurado a gran escala de artículos de STEM en 10 disciplinas diferentes. Nuestro análisis se define sobre un corpus a gran escala que comprende 60,000 resúmenes estructurados como cuatro entidades científicas: proceso, método, material y datos. Así, nuestro estudio presenta, por primera vez, un análisis de un corpus multidisciplinario a gran escala bajo la construcción de cuatro etiquetas de entidades nombradas que están específicamente definidas y seleccionadas para ser independientes del dominio, en contraposición a ser específicas del dominio. El trabajo es, por tanto, inadvertidamente una prueba de viabilidad para caracterizar la ciencia multidisciplinaria con conceptos independientes del dominio. Además, para resumir las distintas facetas del conocimiento científico por concepto y por disciplina, se ofrecen un conjunto de visualizaciones en forma de nubes de palabras. El corpus STEM-NER-60k, creado en este trabajo, comprende más de 1 millón de entidades extraídas de 60,000 artículos de STEM obtenidos de una importante plataforma de publicación y se publica de forma pública.