Vinculando entidades del texto a cientos de conjuntos de datos RDF para habilitar el enriquecimiento de entidades a gran escala
Autores: Mountantonakis, Michalis; Tzitzikas, Yannis
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Vinculando entidades del texto a cientos de conjuntos de datos RDF para habilitar el enriquecimiento de entidades a gran escala
Categoría
Gestión y administración
Subcategoría
Gestión del conocimiento
Palabras clave
Enfoques
Reconocimiento de entidades nombradas
Bases de conocimiento RDF
Entidades
Conjuntos de datos
Extracción.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 17
Citaciones: Sin citaciones
Hay un alto aumento en los enfoques que reciben como entrada un texto y realizan el reconocimiento (o extracción) de entidades nombradas para vincular las entidades reconocidas del texto dado a Bases de Conocimiento RDF (o conjuntos de datos). De esta manera, es factible recuperar más información sobre estas entidades, lo que puede ser de importancia primordial para varias tareas, por ejemplo, para facilitar la anotación manual, la creación de hipervínculos, el enriquecimiento de contenido, para mejorar la veracidad de los datos y otros. Sin embargo, los enfoques actuales vinculan las entidades extraídas a una o pocas bases de conocimiento, por lo tanto, no es factible recuperar las URIs y hechos de cada entidad reconocida de múltiples conjuntos de datos y descubrir los conjuntos de datos más relevantes para una o más entidades extraídas. Para habilitar esta funcionalidad, introducimos un prototipo de investigación, llamado , que explota tres herramientas de Reconocimiento y Desambiguación de Entidades Nombradas ampliamente utilizadas (es decir, DBpedia Spotlight, WAT y Stanford CoreNLP) para reconocer las entidades de un texto dado. Posteriormente, vincula estas entidades a la base de conocimiento, que ofrece servicios de enriquecimiento de datos y descubrimiento para millones de entidades en cientos de conjuntos de datos RDF. Introducimos todos los pasos de , y proporcionamos información sobre cómo explotar sus servicios a través de su aplicación en línea y su API REST. En cuanto a la evaluación, utilizamos tres colecciones de evaluación de textos: (i) para comparar la efectividad de combinar diferentes herramientas de Reconocimiento de Entidades Nombradas, (ii) para medir la ganancia en términos de enriquecimiento al vincular las entidades extraídas a en lugar de usar un solo o unos pocos conjuntos de datos RDF y (iii) para evaluar la eficiencia de .
Descripción
Hay un alto aumento en los enfoques que reciben como entrada un texto y realizan el reconocimiento (o extracción) de entidades nombradas para vincular las entidades reconocidas del texto dado a Bases de Conocimiento RDF (o conjuntos de datos). De esta manera, es factible recuperar más información sobre estas entidades, lo que puede ser de importancia primordial para varias tareas, por ejemplo, para facilitar la anotación manual, la creación de hipervínculos, el enriquecimiento de contenido, para mejorar la veracidad de los datos y otros. Sin embargo, los enfoques actuales vinculan las entidades extraídas a una o pocas bases de conocimiento, por lo tanto, no es factible recuperar las URIs y hechos de cada entidad reconocida de múltiples conjuntos de datos y descubrir los conjuntos de datos más relevantes para una o más entidades extraídas. Para habilitar esta funcionalidad, introducimos un prototipo de investigación, llamado , que explota tres herramientas de Reconocimiento y Desambiguación de Entidades Nombradas ampliamente utilizadas (es decir, DBpedia Spotlight, WAT y Stanford CoreNLP) para reconocer las entidades de un texto dado. Posteriormente, vincula estas entidades a la base de conocimiento, que ofrece servicios de enriquecimiento de datos y descubrimiento para millones de entidades en cientos de conjuntos de datos RDF. Introducimos todos los pasos de , y proporcionamos información sobre cómo explotar sus servicios a través de su aplicación en línea y su API REST. En cuanto a la evaluación, utilizamos tres colecciones de evaluación de textos: (i) para comparar la efectividad de combinar diferentes herramientas de Reconocimiento de Entidades Nombradas, (ii) para medir la ganancia en términos de enriquecimiento al vincular las entidades extraídas a en lugar de usar un solo o unos pocos conjuntos de datos RDF y (iii) para evaluar la eficiencia de .