logo móvil
Contáctanos

Efectos de las características semánticas en los sistemas de reconocimiento de nombres de fármacos basados en aprendizaje automático: incrustaciones de palabras frente a diccionarios construidos manualmente

Autores: Liu, Shengyu; Tang, Buzhou; Chen, Qingcai; Wang, Xiaolong

Idioma: Inglés

Editor: MDPI

Año: 2015

Descargar PDF

Acceso abierto

Artículo científico
2015

Efectos de las características semánticas en los sistemas de reconocimiento de nombres de fármacos basados en aprendizaje automático: incrustaciones de palabras frente a diccionarios construidos manualmente


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Características semánticas
Aprendizaje automático
Reconocimiento de nombres de medicamentos
Incrustaciones de palabras
Diccionarios de medicamentos
Campos aleatorios condicionales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Las características semánticas son muy importantes para los sistemas de reconocimiento de nombres de medicamentos (DNR) basados en aprendizaje automático. Las características semánticas utilizadas en la mayoría de los sistemas DNR se basan en diccionarios de medicamentos construidos manualmente por expertos. Construir diccionarios de medicamentos a gran escala es una tarea que consume mucho tiempo y agregar nuevos medicamentos a los diccionarios existentes inmediatamente después de su desarrollo también es un desafío. En los últimos años, las incrustaciones de palabras que contienen rica información semántica latente de las palabras se han utilizado ampliamente para mejorar el rendimiento de varias tareas de procesamiento de lenguaje natural. Sin embargo, no se han utilizado en sistemas DNR. En comparación con las características semánticas basadas en diccionarios de medicamentos, la ventaja de las incrustaciones de palabras radica en que su aprendizaje es no supervisado. En este artículo, investigamos el efecto de las características semánticas basadas en incrustaciones de palabras en DNR y las comparamos con características semánticas basadas en tres diccionarios de medicamentos. Proponemos un sistema basado en campos aleatorios condicionales (CRF) para DNR. El modelo skip-gram, un algoritmo no supervisado, se utiliza para inducir incrustaciones de palabras en aproximadamente 17.3 GigaBytes (GB) de textos biomédicos no etiquetados recopilados de MEDLINE (Biblioteca Nacional de Medicina, Bethesda, MD, EE. UU.). El sistema se evalúa en el corpus de extracción de interacciones entre medicamentos (DDIExtraction) 2013. Los resultados experimentales muestran que las incrustaciones de palabras mejoran significativamente el rendimiento del sistema DNR y son competitivas con las características semánticas basadas en diccionarios de medicamentos. El F-score mejora en 2.92 puntos porcentuales cuando se agregan incrustaciones de palabras al sistema base. Es comparable con las mejoras de las características semánticas basadas en diccionarios de medicamentos. Además, las incrustaciones de palabras son complementarias a las características semánticas basadas en diccionarios de medicamentos. Cuando se agregan tanto las incrustaciones de palabras como las características semánticas basadas en diccionarios de medicamentos, el sistema logra el mejor rendimiento con un F-score del 78.37%, superando al mejor sistema del desafío DDIExtraction 2013 en 6.87 puntos porcentuales.

Otros recursos que podrían interesarte

Temas Virtualpro