Istex: Una base de datos de veinte millones de artículos científicos con una herramienta de minería que utiliza entidades nombradas
Autores: Maurel, Denis; Morale, Enza; Thouvenin, Nicolas; Ringot, Patrice; Turri, Angel
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Istex: Una base de datos de veinte millones de artículos científicos con una herramienta de minería que utiliza entidades nombradas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Base de datos
Artículos científicos
Gobierno francés
Bibliotecas académicas
Reconocimiento de entidades nombradas
CasEN
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Istex es una base de datos de veinte millones de artículos científicos de texto completo comprada por el Gobierno francés para el uso de bibliotecas académicas. Los artículos suelen buscarse por el título, autores, palabras clave o posiblemente el resumen. Para autorizar nuevos tipos de consultas en Istex, implementamos un sistema de reconocimiento de entidades nombradas en todos los artículos y ofrecemos a los usuarios la posibilidad de realizar búsquedas sobre estas entidades. Después de la presentación del proyecto francés Istex, detallamos en este documento el reconocimiento de entidades nombradas con CasEN, una cascada de gráficos, implementada en el software Unitex. CasEN existe en francés, pero no en inglés. El primer desafío fue construir una nueva cascada en un corto período de tiempo. Los resultados de su evaluación mostraron una buena medida de precisión, aunque el recall no fue muy bueno. La precisión fue muy importante para este proyecto para asegurar que no devolviera artículos no deseados por una consulta. El segundo desafío fue la implementación de Unitex para analizar alrededor de veinte millones de documentos. Utilizamos una aplicación dockerizada. Finalmente, también explicamos cómo consultar las entidades nombradas resultantes en el sitio web de Istex.
Descripción
Istex es una base de datos de veinte millones de artículos científicos de texto completo comprada por el Gobierno francés para el uso de bibliotecas académicas. Los artículos suelen buscarse por el título, autores, palabras clave o posiblemente el resumen. Para autorizar nuevos tipos de consultas en Istex, implementamos un sistema de reconocimiento de entidades nombradas en todos los artículos y ofrecemos a los usuarios la posibilidad de realizar búsquedas sobre estas entidades. Después de la presentación del proyecto francés Istex, detallamos en este documento el reconocimiento de entidades nombradas con CasEN, una cascada de gráficos, implementada en el software Unitex. CasEN existe en francés, pero no en inglés. El primer desafío fue construir una nueva cascada en un corto período de tiempo. Los resultados de su evaluación mostraron una buena medida de precisión, aunque el recall no fue muy bueno. La precisión fue muy importante para este proyecto para asegurar que no devolviera artículos no deseados por una consulta. El segundo desafío fue la implementación de Unitex para analizar alrededor de veinte millones de documentos. Utilizamos una aplicación dockerizada. Finalmente, también explicamos cómo consultar las entidades nombradas resultantes en el sitio web de Istex.