logo móvil
Contáctanos

Extracción de las relaciones entre entidades farmacológicas significativas en reseñas en ruso de usuarios de Internet sobre medicamentos

Autores: Sboev, Alexander; Selivanov, Anton; Moloshnikov, Ivan; Rybka, Roman; Gryaznov, Artem; Sboeva, Sanna; Rylkov, Gleb

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Extracción de las relaciones entre entidades farmacológicas significativas en reseñas en ruso de usuarios de Internet sobre medicamentos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Análisis de medios digitales
Atención médica
Procesamiento de lenguaje natural
Relaciones de entidades
Textos en ruso

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones


Descripción
Actualmente, el análisis de los medios digitales dirigido a predecir la reacción de la sociedad ante eventos y procesos particulares es una tarea de gran importancia. Los recursos de Internet contienen una gran cantidad de información significativa para diversos ámbitos, como el marketing, la creación de perfiles de autores, el análisis de situaciones sociales, la atención médica, etc. En el caso de la atención médica, esta información es útil para fines de farmacovigilancia, incluida la redefinición de medicamentos. El análisis de las fuentes mencionadas requiere el desarrollo de métodos automáticos de procesamiento del lenguaje natural. Estos métodos, a su vez, requieren conjuntos de datos de texto con anotaciones complejas que incluyan información sobre entidades nombradas y las relaciones entre ellas. Como muestra el análisis de la literatura relevante, hay escasez de conjuntos de datos en idioma ruso con relaciones de entidades anotadas, y hasta ahora no ha existido ninguno en el ámbito médico. Este documento presenta el primer corpus textual en ruso donde las entidades tienen etiquetas de diferentes contextos dentro de un solo texto, de modo que las entidades relacionadas comparten un contexto común, por lo tanto, este corpus es adecuado para la tarea de pertenecer al ámbito médico. Nuestra segunda contribución es un método para la extracción automatizada de relaciones de entidades en textos en ruso utilizando el modelo de lenguaje XLM-RoBERTa entrenado preliminarmente en textos de reseñas de medicamentos en ruso. Se realiza una comparación con otros métodos de aprendizaje automático para estimar la eficacia del método propuesto. El método ofrece una precisión de vanguardia en la extracción de los siguientes tipos de relaciones: ADR-Drugname, Drugname-Diseasename, Drugname-SourceInfoDrug, Diseasename-Indication. Como se muestra en el subcorpus presentado del Corpus de Reseñas de Medicamentos en Ruso, el método desarrollado logra un puntaje F1 promedio del 80.4% (estimado con validación cruzada, promediado sobre los cuatro tipos de relaciones). Este resultado es un 3.6% más alto en comparación con el modelo de lenguaje existente RuBERT, y un 21.77% más alto en comparación con los clasificadores ML básicos.

Otros recursos que podrían interesarte

Temas Virtualpro