Compleción de Grafos de Conocimiento Médico Basada en Embeddings de Palabras
Autores: Gao, Mingxia; Lu, Jianguo; Chen, Furong
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Compleción de Grafos de Conocimiento Médico Basada en Embeddings de Palabras
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Completación de grafos de conocimiento médico
Triples rdf
Modelos de lenguaje preentrenados
Incrustaciones de palabras
Completación de relaciones
Entidades
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El objetivo de la finalización del Grafo de Conocimiento Médico es predecir automáticamente una de las tres partes (entidad principal, relación y entidad final) en triples RDF a partir de datos médicos, principalmente datos textuales. Tras su introducción, el uso de modelos de lenguaje preentrenados, como Word2vec, BERT y XLNET, para completar Grafos de Conocimiento Médico se ha convertido en un tema de investigación popular. El trabajo existente se centra principalmente en la finalización de relaciones y rara vez ha resuelto entidades y triples relacionados. En este artículo, se propone un marco para predecir triples RDF para Grafos de Conocimiento Médico basado en incrustaciones de palabras (denominado PTMKG-WE), para el uso específico en la finalización de entidades y triples. El marco primero formaliza muestras existentes para una relación dada del Grafo de Conocimiento Médico como conocimiento previo. En segundo lugar, entrena incrustaciones de palabras a partir de grandes datos médicos de acuerdo con el conocimiento previo a través de Word2vec. En tercer lugar, puede adquirir triples candidatos a partir de incrustaciones de palabras basadas en analogías de muestras existentes. En este marco, el artículo propone dos estrategias para mejorar las características de relación. Una se utiliza para refinar la semántica relacional agrupando muestras triples existentes. La otra se utiliza para incrustar con precisión la expresión de la relación mediante muestras existentes. Estas dos estrategias se pueden utilizar por separado (denominadas PTMKG-WE-C y PTMKG-WE-M, respectivamente), y también se pueden superponer (denominadas PTMKG-WE-C-M) en el marco. Finalmente, en el estudio actual, se recopilaron datos de PubMed y la Terminología de Referencia del Archivo Nacional de Medicamentos (NDF-RT), y se llevó a cabo una serie de experimentos. Los resultados experimentales muestran que el marco propuesto en este artículo y las dos estrategias de mejora se pueden utilizar para predecir nuevos triples para Grafos de Conocimiento Médico, cuando los datos médicos son suficientemente abundantes y el Grafo de Conocimiento tiene un conocimiento previo apropiado. Las dos estrategias diseñadas para mejorar las características de relación tienen un efecto significativo en la precisión de elevación, y el efecto de superposición se vuelve más obvio. Otra conclusión es que, bajo la misma configuración de parámetros, la precisión semántica de la incrustación de palabras se puede mejorar al ampliar la amplitud y profundidad de los datos, y la precisión del marco de predicción en este artículo se puede mejorar aún más en la mayoría de los casos. Por lo tanto, recopilar y entrenar grandes datos médicos es un método viable para aprender conocimientos más útiles.
Descripción
El objetivo de la finalización del Grafo de Conocimiento Médico es predecir automáticamente una de las tres partes (entidad principal, relación y entidad final) en triples RDF a partir de datos médicos, principalmente datos textuales. Tras su introducción, el uso de modelos de lenguaje preentrenados, como Word2vec, BERT y XLNET, para completar Grafos de Conocimiento Médico se ha convertido en un tema de investigación popular. El trabajo existente se centra principalmente en la finalización de relaciones y rara vez ha resuelto entidades y triples relacionados. En este artículo, se propone un marco para predecir triples RDF para Grafos de Conocimiento Médico basado en incrustaciones de palabras (denominado PTMKG-WE), para el uso específico en la finalización de entidades y triples. El marco primero formaliza muestras existentes para una relación dada del Grafo de Conocimiento Médico como conocimiento previo. En segundo lugar, entrena incrustaciones de palabras a partir de grandes datos médicos de acuerdo con el conocimiento previo a través de Word2vec. En tercer lugar, puede adquirir triples candidatos a partir de incrustaciones de palabras basadas en analogías de muestras existentes. En este marco, el artículo propone dos estrategias para mejorar las características de relación. Una se utiliza para refinar la semántica relacional agrupando muestras triples existentes. La otra se utiliza para incrustar con precisión la expresión de la relación mediante muestras existentes. Estas dos estrategias se pueden utilizar por separado (denominadas PTMKG-WE-C y PTMKG-WE-M, respectivamente), y también se pueden superponer (denominadas PTMKG-WE-C-M) en el marco. Finalmente, en el estudio actual, se recopilaron datos de PubMed y la Terminología de Referencia del Archivo Nacional de Medicamentos (NDF-RT), y se llevó a cabo una serie de experimentos. Los resultados experimentales muestran que el marco propuesto en este artículo y las dos estrategias de mejora se pueden utilizar para predecir nuevos triples para Grafos de Conocimiento Médico, cuando los datos médicos son suficientemente abundantes y el Grafo de Conocimiento tiene un conocimiento previo apropiado. Las dos estrategias diseñadas para mejorar las características de relación tienen un efecto significativo en la precisión de elevación, y el efecto de superposición se vuelve más obvio. Otra conclusión es que, bajo la misma configuración de parámetros, la precisión semántica de la incrustación de palabras se puede mejorar al ampliar la amplitud y profundidad de los datos, y la precisión del marco de predicción en este artículo se puede mejorar aún más en la mayoría de los casos. Por lo tanto, recopilar y entrenar grandes datos médicos es un método viable para aprender conocimientos más útiles.