Análisis comparativo de grandes modelos de lenguaje en el reconocimiento de entidades nombradas médicas en chino
Autores: Zhu, Zhichao; Zhao, Qing; Li, Jianjiang; Ge, Yanhu; Ding, Xingjian; Gu, Tao; Zou, Jingchen; Lv, Sirui; Wang, Sheng; Yang, Ji-Jiang
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Análisis comparativo de grandes modelos de lenguaje en el reconocimiento de entidades nombradas médicas en chino
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Grandes modelos de lenguaje
Reconocimiento de entidades nombradas biomédicas
Texto en chino
ChatGLM2-6B
GPT-3.5
Ajuste fino
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La emergencia de grandes modelos de lenguaje (LLMs) ha proporcionado un sólido apoyo para tareas de aplicación en diversos dominios, como el reconocimiento de entidades nombradas (NER) en el dominio general. Sin embargo, debido a la particularidad del dominio médico, la investigación sobre la comprensión y mejora de la efectividad de LLMs en tareas de reconocimiento de entidades nombradas biomédicas (BNER) sigue siendo relativamente limitada, especialmente en el contexto del texto chino. En este estudio, evaluamos exhaustivamente varios LLMs típicos, incluidos ChatGLM2-6B, GLM-130B, GPT-3.5 y GPT-4, en la tarea china BNER aprovechando un conjunto de datos de registros médicos electrónicos (EMR) chinos del mundo real y un conjunto de datos público. Los resultados experimentales demuestran el rendimiento prometedor pero limitado de LLMs con diseños de indicaciones de cero disparos y pocos disparos para tareas chinas BNER. Más importante aún, el ajuste fino de instrucciones mejora significativamente el rendimiento de LLMs. El ChatGLM2-6B fuera de línea ajustado superó el rendimiento del modelo específico de la tarea BiLSTM+CRF (BC) en el conjunto de datos del mundo real. El mejor modelo ajustado, GPT-3.5, supera a todos los demás LLMs en el conjunto de datos CCKS2017 disponible públicamente, incluso superando la mitad de las líneas de base; sin embargo, sigue siendo un desafío para superar los modelos específicos de la tarea de vanguardia, es decir, la Red de Atención Guiada por Diccionario (DGAN). Hasta donde sabemos, este estudio es el primer intento de evaluar el rendimiento de LLMs en tareas chinas BNER, lo que enfatiza las implicaciones prospectivas y transformadoras de utilizar LLMs en tareas chinas BNER. Además, resumimos nuestros hallazgos en un conjunto de pautas prácticas para futuros investigadores sobre cómo aprovechar eficazmente LLMs para convertirse en expertos en tareas específicas.
Descripción
La emergencia de grandes modelos de lenguaje (LLMs) ha proporcionado un sólido apoyo para tareas de aplicación en diversos dominios, como el reconocimiento de entidades nombradas (NER) en el dominio general. Sin embargo, debido a la particularidad del dominio médico, la investigación sobre la comprensión y mejora de la efectividad de LLMs en tareas de reconocimiento de entidades nombradas biomédicas (BNER) sigue siendo relativamente limitada, especialmente en el contexto del texto chino. En este estudio, evaluamos exhaustivamente varios LLMs típicos, incluidos ChatGLM2-6B, GLM-130B, GPT-3.5 y GPT-4, en la tarea china BNER aprovechando un conjunto de datos de registros médicos electrónicos (EMR) chinos del mundo real y un conjunto de datos público. Los resultados experimentales demuestran el rendimiento prometedor pero limitado de LLMs con diseños de indicaciones de cero disparos y pocos disparos para tareas chinas BNER. Más importante aún, el ajuste fino de instrucciones mejora significativamente el rendimiento de LLMs. El ChatGLM2-6B fuera de línea ajustado superó el rendimiento del modelo específico de la tarea BiLSTM+CRF (BC) en el conjunto de datos del mundo real. El mejor modelo ajustado, GPT-3.5, supera a todos los demás LLMs en el conjunto de datos CCKS2017 disponible públicamente, incluso superando la mitad de las líneas de base; sin embargo, sigue siendo un desafío para superar los modelos específicos de la tarea de vanguardia, es decir, la Red de Atención Guiada por Diccionario (DGAN). Hasta donde sabemos, este estudio es el primer intento de evaluar el rendimiento de LLMs en tareas chinas BNER, lo que enfatiza las implicaciones prospectivas y transformadoras de utilizar LLMs en tareas chinas BNER. Además, resumimos nuestros hallazgos en un conjunto de pautas prácticas para futuros investigadores sobre cómo aprovechar eficazmente LLMs para convertirse en expertos en tareas específicas.