Un modelo RG-FLAT-CRF para el reconocimiento de entidades nombradas en registros clínicos electrónicos chinos
Autores: Li, Jiakang; Liu, Ruixia; Chen, Changfang; Zhou, Shuwang; Shang, Xiaoyi; Wang, Yinglong
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un modelo RG-FLAT-CRF para el reconocimiento de entidades nombradas en registros clínicos electrónicos chinos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de entidades clínicas
Modelos chinos de CNER
RoBerta Glyce-Flat Lattice Transformer-CRF
Información morfológica
Características médicas
Estructura de rejilla
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
El objetivo del Reconocimiento de Entidades Nombradas Clínicas (CNER) es identificar términos clínicos en registros médicos, lo cual es de gran importancia para la investigación clínica subsiguiente. La mayoría de los modelos actuales de CNER chinos utilizan un solo conjunto de características que no consideran las características lingüísticas del idioma chino, por ejemplo, no utilizan características de palabras y caracteres, y carecen de información morfológica e información léxica especializada sobre caracteres chinos en el campo médico. Proponemos un modelo RoBerta Glyce-Flat Lattice Transformer-CRF (RG-FLAT-CRF) para abordar este problema. El modelo utiliza una red neuronal convolucional para discernir la información morfológica oculta en los caracteres chinos, y un modelo pre-entrenado para obtener vectores con características médicas. Los diferentes vectores se unen para formar un vector multi-característica. Para utilizar información léxica y evitar el problema de errores de separación de palabras, el modelo utiliza una estructura de rejilla para agregar información léxica asociada con cada palabra, lo cual puede usarse para evitar el problema de errores de separación de palabras. El modelo RG-FLAT-CRF obtuvo un puntaje de 95.61%, 85.17% y 91.2% para F1 en los conjuntos de datos CCKS 2017, 2019 y 2020, respectivamente. Utilizamos pruebas estadísticas para comparar con otros modelos. Los resultados muestran que la mayoría de los valores p son estadísticamente significativos cuando son menores de 0.05.
Descripción
El objetivo del Reconocimiento de Entidades Nombradas Clínicas (CNER) es identificar términos clínicos en registros médicos, lo cual es de gran importancia para la investigación clínica subsiguiente. La mayoría de los modelos actuales de CNER chinos utilizan un solo conjunto de características que no consideran las características lingüísticas del idioma chino, por ejemplo, no utilizan características de palabras y caracteres, y carecen de información morfológica e información léxica especializada sobre caracteres chinos en el campo médico. Proponemos un modelo RoBerta Glyce-Flat Lattice Transformer-CRF (RG-FLAT-CRF) para abordar este problema. El modelo utiliza una red neuronal convolucional para discernir la información morfológica oculta en los caracteres chinos, y un modelo pre-entrenado para obtener vectores con características médicas. Los diferentes vectores se unen para formar un vector multi-característica. Para utilizar información léxica y evitar el problema de errores de separación de palabras, el modelo utiliza una estructura de rejilla para agregar información léxica asociada con cada palabra, lo cual puede usarse para evitar el problema de errores de separación de palabras. El modelo RG-FLAT-CRF obtuvo un puntaje de 95.61%, 85.17% y 91.2% para F1 en los conjuntos de datos CCKS 2017, 2019 y 2020, respectivamente. Utilizamos pruebas estadísticas para comparar con otros modelos. Los resultados muestran que la mayoría de los valores p son estadísticamente significativos cuando son menores de 0.05.