Simplificación de Texto Inteligente Basada en Conocimiento para la Extracción de Relaciones Biológicas
Autores: Gill, Jaskaran; Chetty, Madhu; Lim, Suryani; Hallinan, Jennifer
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Simplificación de Texto Inteligente Basada en Conocimiento para la Extracción de Relaciones Biológicas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Extracción de relaciones
Publicaciones biológicas
Descubrimiento científico
Investigación médica
Modelos de lenguaje grandes
Algoritmos de aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La extracción de relaciones de publicaciones biológicas juega un papel fundamental en la aceleración del descubrimiento científico y el avance de la investigación médica. Aunque grandes cantidades de este conocimiento están almacenadas en la literatura publicada, extraerlo manualmente de este volumen de documentos en constante crecimiento se está volviendo cada vez más arduo. Recientemente, se ha centrado la atención en la extracción automática de dicho conocimiento utilizando Modelos de Lenguaje Grande (LLM) preentrenados y algoritmos de aprendizaje profundo para la extracción automatizada de relaciones. Sin embargo, la compleja estructura sintáctica de las oraciones biológicas, con entidades anidadas y terminología específica del dominio, y la insuficiencia de corpora de entrenamiento anotados, presentan importantes desafíos para capturar con precisión las relaciones entre entidades a partir de los datos no estructurados. Para abordar estos problemas, en este artículo, proponemos un enfoque de Simplificación de Texto Inteligente Basado en Conocimiento (KITS) centrado en la extracción precisa de relaciones biológicas. KITS es capaz de capturar de manera precisa y exacta el contexto relacional entre varias relaciones binarias dentro de la oración, además de prevenir cualquier cambio potencial en el significado de aquellas oraciones que están siendo simplificadas por KITS. Los experimentos muestran que la técnica propuesta, utilizando métricas de rendimiento bien conocidas, resultó en un aumento del 21% en precisión, con solo el 25% de las oraciones simplificadas en el conjunto de datos Learning Language in Logic (LLL). Combinando el método propuesto con BioBERT, el popular LLM preentrenado pudo superar a otros métodos de vanguardia.
Descripción
La extracción de relaciones de publicaciones biológicas juega un papel fundamental en la aceleración del descubrimiento científico y el avance de la investigación médica. Aunque grandes cantidades de este conocimiento están almacenadas en la literatura publicada, extraerlo manualmente de este volumen de documentos en constante crecimiento se está volviendo cada vez más arduo. Recientemente, se ha centrado la atención en la extracción automática de dicho conocimiento utilizando Modelos de Lenguaje Grande (LLM) preentrenados y algoritmos de aprendizaje profundo para la extracción automatizada de relaciones. Sin embargo, la compleja estructura sintáctica de las oraciones biológicas, con entidades anidadas y terminología específica del dominio, y la insuficiencia de corpora de entrenamiento anotados, presentan importantes desafíos para capturar con precisión las relaciones entre entidades a partir de los datos no estructurados. Para abordar estos problemas, en este artículo, proponemos un enfoque de Simplificación de Texto Inteligente Basado en Conocimiento (KITS) centrado en la extracción precisa de relaciones biológicas. KITS es capaz de capturar de manera precisa y exacta el contexto relacional entre varias relaciones binarias dentro de la oración, además de prevenir cualquier cambio potencial en el significado de aquellas oraciones que están siendo simplificadas por KITS. Los experimentos muestran que la técnica propuesta, utilizando métricas de rendimiento bien conocidas, resultó en un aumento del 21% en precisión, con solo el 25% de las oraciones simplificadas en el conjunto de datos Learning Language in Logic (LLL). Combinando el método propuesto con BioBERT, el popular LLM preentrenado pudo superar a otros métodos de vanguardia.