Raspado web de repositorios científicos para búsqueda de literatura relevante aumentada utilizando CRISP-DM
Autores: Hassanien, Hossam El-Din
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Raspado web de repositorios científicos para búsqueda de literatura relevante aumentada utilizando CRISP-DM
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Repositorios web científicos
Documentos académicos
Metadatos
CRISP-DM
Análisis de literatura
Web scraping
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
Los repositorios web científicos son ubicaciones cibernéticas centrales donde se almacenan y mantienen documentos académicos. Con la naturaleza de la información/metadatos no estructurados y semi-estructurados dentro de estos repositorios, el análisis de literatura para la escritura académica se convierte en un desafío. Correspondientemente, aplicar CRISP-DM plantea una postura para abordar este desafío a través de formular un proceso algo ampliado para una búsqueda de literatura relevante. Sin embargo, casi todos los repositorios no tienen un método directo donde se pueda extraer metadatos para el procesamiento de datos preliminar que se aplique como parte del proceso de CRISP-DM. Además, la mayoría de los repositorios no siguen los estándares de acceso abierto. Hasta el momento en que se publicó este documento, el tema de la búsqueda de literatura relevante aumentada solo había visto un progreso metodológico, con la incapacidad de aplicar los métodos subyacentes a gran escala, dadas las restricciones de acceso a datos en repositorios de acceso abierto. El objetivo de este documento es proponer CRISP-DM como una metodología de investigación aumentada con un enfoque en el web scraping como parte del paso de procesamiento de datos. Para fundamentar la metodología propuesta, se lleva a cabo un estudio de caso de rol de juego. Esto luego trabaja en aliviar estas restricciones, así como fomentar la adopción más amplia del proceso de análisis aumentado para una búsqueda de literatura relevante dentro de la comunidad investigadora.
Descripción
Los repositorios web científicos son ubicaciones cibernéticas centrales donde se almacenan y mantienen documentos académicos. Con la naturaleza de la información/metadatos no estructurados y semi-estructurados dentro de estos repositorios, el análisis de literatura para la escritura académica se convierte en un desafío. Correspondientemente, aplicar CRISP-DM plantea una postura para abordar este desafío a través de formular un proceso algo ampliado para una búsqueda de literatura relevante. Sin embargo, casi todos los repositorios no tienen un método directo donde se pueda extraer metadatos para el procesamiento de datos preliminar que se aplique como parte del proceso de CRISP-DM. Además, la mayoría de los repositorios no siguen los estándares de acceso abierto. Hasta el momento en que se publicó este documento, el tema de la búsqueda de literatura relevante aumentada solo había visto un progreso metodológico, con la incapacidad de aplicar los métodos subyacentes a gran escala, dadas las restricciones de acceso a datos en repositorios de acceso abierto. El objetivo de este documento es proponer CRISP-DM como una metodología de investigación aumentada con un enfoque en el web scraping como parte del paso de procesamiento de datos. Para fundamentar la metodología propuesta, se lleva a cabo un estudio de caso de rol de juego. Esto luego trabaja en aliviar estas restricciones, así como fomentar la adopción más amplia del proceso de análisis aumentado para una búsqueda de literatura relevante dentro de la comunidad investigadora.