Efectos de las características semánticas en los sistemas de reconocimiento de nombres de fármacos basados en aprendizaje automático: incrustaciones de palabras frente a diccionarios construidos manualmente
Autores: Liu, Shengyu; Tang, Buzhou; Chen, Qingcai; Wang, Xiaolong
Idioma: Inglés
Editor: MDPI
Año: 2015
Acceso abierto
Artículo científico
2015
Efectos de las características semánticas en los sistemas de reconocimiento de nombres de fármacos basados en aprendizaje automático: incrustaciones de palabras frente a diccionarios construidos manualmente
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Características semánticas
Aprendizaje automático
Reconocimiento de nombres de medicamentos
Incrustaciones de palabras
Diccionarios de medicamentos
Campos aleatorios condicionales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las características semánticas son muy importantes para los sistemas de reconocimiento de nombres de medicamentos (DNR) basados en aprendizaje automático. Las características semánticas utilizadas en la mayoría de los sistemas DNR se basan en diccionarios de medicamentos construidos manualmente por expertos. Construir diccionarios de medicamentos a gran escala es una tarea que consume mucho tiempo y agregar nuevos medicamentos a los diccionarios existentes inmediatamente después de su desarrollo también es un desafío. En los últimos años, las incrustaciones de palabras que contienen rica información semántica latente de las palabras se han utilizado ampliamente para mejorar el rendimiento de varias tareas de procesamiento de lenguaje natural. Sin embargo, no se han utilizado en sistemas DNR. En comparación con las características semánticas basadas en diccionarios de medicamentos, la ventaja de las incrustaciones de palabras radica en que su aprendizaje es no supervisado. En este artículo, investigamos el efecto de las características semánticas basadas en incrustaciones de palabras en DNR y las comparamos con características semánticas basadas en tres diccionarios de medicamentos. Proponemos un sistema basado en campos aleatorios condicionales (CRF) para DNR. El modelo skip-gram, un algoritmo no supervisado, se utiliza para inducir incrustaciones de palabras en aproximadamente 17.3 GigaBytes (GB) de textos biomédicos no etiquetados recopilados de MEDLINE (Biblioteca Nacional de Medicina, Bethesda, MD, EE. UU.). El sistema se evalúa en el corpus de extracción de interacciones entre medicamentos (DDIExtraction) 2013. Los resultados experimentales muestran que las incrustaciones de palabras mejoran significativamente el rendimiento del sistema DNR y son competitivas con las características semánticas basadas en diccionarios de medicamentos. El F-score mejora en 2.92 puntos porcentuales cuando se agregan incrustaciones de palabras al sistema base. Es comparable con las mejoras de las características semánticas basadas en diccionarios de medicamentos. Además, las incrustaciones de palabras son complementarias a las características semánticas basadas en diccionarios de medicamentos. Cuando se agregan tanto las incrustaciones de palabras como las características semánticas basadas en diccionarios de medicamentos, el sistema logra el mejor rendimiento con un F-score del 78.37%, superando al mejor sistema del desafío DDIExtraction 2013 en 6.87 puntos porcentuales.
Descripción
Las características semánticas son muy importantes para los sistemas de reconocimiento de nombres de medicamentos (DNR) basados en aprendizaje automático. Las características semánticas utilizadas en la mayoría de los sistemas DNR se basan en diccionarios de medicamentos construidos manualmente por expertos. Construir diccionarios de medicamentos a gran escala es una tarea que consume mucho tiempo y agregar nuevos medicamentos a los diccionarios existentes inmediatamente después de su desarrollo también es un desafío. En los últimos años, las incrustaciones de palabras que contienen rica información semántica latente de las palabras se han utilizado ampliamente para mejorar el rendimiento de varias tareas de procesamiento de lenguaje natural. Sin embargo, no se han utilizado en sistemas DNR. En comparación con las características semánticas basadas en diccionarios de medicamentos, la ventaja de las incrustaciones de palabras radica en que su aprendizaje es no supervisado. En este artículo, investigamos el efecto de las características semánticas basadas en incrustaciones de palabras en DNR y las comparamos con características semánticas basadas en tres diccionarios de medicamentos. Proponemos un sistema basado en campos aleatorios condicionales (CRF) para DNR. El modelo skip-gram, un algoritmo no supervisado, se utiliza para inducir incrustaciones de palabras en aproximadamente 17.3 GigaBytes (GB) de textos biomédicos no etiquetados recopilados de MEDLINE (Biblioteca Nacional de Medicina, Bethesda, MD, EE. UU.). El sistema se evalúa en el corpus de extracción de interacciones entre medicamentos (DDIExtraction) 2013. Los resultados experimentales muestran que las incrustaciones de palabras mejoran significativamente el rendimiento del sistema DNR y son competitivas con las características semánticas basadas en diccionarios de medicamentos. El F-score mejora en 2.92 puntos porcentuales cuando se agregan incrustaciones de palabras al sistema base. Es comparable con las mejoras de las características semánticas basadas en diccionarios de medicamentos. Además, las incrustaciones de palabras son complementarias a las características semánticas basadas en diccionarios de medicamentos. Cuando se agregan tanto las incrustaciones de palabras como las características semánticas basadas en diccionarios de medicamentos, el sistema logra el mejor rendimiento con un F-score del 78.37%, superando al mejor sistema del desafío DDIExtraction 2013 en 6.87 puntos porcentuales.