logo móvil
Contáctanos

Análisis comparativo de grandes modelos de lenguaje en el reconocimiento de entidades nombradas médicas en chino

Autores: Zhu, Zhichao; Zhao, Qing; Li, Jianjiang; Ge, Yanhu; Ding, Xingjian; Gu, Tao; Zou, Jingchen; Lv, Sirui; Wang, Sheng; Yang, Ji-Jiang

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Análisis comparativo de grandes modelos de lenguaje en el reconocimiento de entidades nombradas médicas en chino


Categoría

Ingeniería y Tecnología

Subcategoría

Bioingeniería

Palabras clave

Grandes modelos de lenguaje
Reconocimiento de entidades nombradas biomédicas
Texto en chino
ChatGLM2-6B
GPT-3.5
Ajuste fino

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
La emergencia de grandes modelos de lenguaje (LLMs) ha proporcionado un sólido apoyo para tareas de aplicación en diversos dominios, como el reconocimiento de entidades nombradas (NER) en el dominio general. Sin embargo, debido a la particularidad del dominio médico, la investigación sobre la comprensión y mejora de la efectividad de LLMs en tareas de reconocimiento de entidades nombradas biomédicas (BNER) sigue siendo relativamente limitada, especialmente en el contexto del texto chino. En este estudio, evaluamos exhaustivamente varios LLMs típicos, incluidos ChatGLM2-6B, GLM-130B, GPT-3.5 y GPT-4, en la tarea china BNER aprovechando un conjunto de datos de registros médicos electrónicos (EMR) chinos del mundo real y un conjunto de datos público. Los resultados experimentales demuestran el rendimiento prometedor pero limitado de LLMs con diseños de indicaciones de cero disparos y pocos disparos para tareas chinas BNER. Más importante aún, el ajuste fino de instrucciones mejora significativamente el rendimiento de LLMs. El ChatGLM2-6B fuera de línea ajustado superó el rendimiento del modelo específico de la tarea BiLSTM+CRF (BC) en el conjunto de datos del mundo real. El mejor modelo ajustado, GPT-3.5, supera a todos los demás LLMs en el conjunto de datos CCKS2017 disponible públicamente, incluso superando la mitad de las líneas de base; sin embargo, sigue siendo un desafío para superar los modelos específicos de la tarea de vanguardia, es decir, la Red de Atención Guiada por Diccionario (DGAN). Hasta donde sabemos, este estudio es el primer intento de evaluar el rendimiento de LLMs en tareas chinas BNER, lo que enfatiza las implicaciones prospectivas y transformadoras de utilizar LLMs en tareas chinas BNER. Además, resumimos nuestros hallazgos en un conjunto de pautas prácticas para futuros investigadores sobre cómo aprovechar eficazmente LLMs para convertirse en expertos en tareas específicas.

Otros recursos que podrían interesarte

Temas Virtualpro