Adaptación de BERT para el procesamiento de información médica con ChatGPT y aprendizaje contrastivo
Autores: Min, Lingtong; Fan, Ziman; Dou, Feiyang; Sun, Jiaao; Luo, Changsheng; Lv, Qinyi
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Adaptación de BERT para el procesamiento de información médica con ChatGPT y aprendizaje contrastivo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Similitud semántica
Procesamiento de información médica
BERT
ChatGPT
Pérdida contrastiva
Cálculos de similitud
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 53
Citaciones: Sin citaciones
Calcular la similitud semántica es fundamental en el procesamiento de información médica, y tiene como objetivo evaluar la similitud de las terminologías médicas profesionales dentro de las bases de datos médicas. Los modelos de lenguaje natural basados en Representaciones de Codificadores Bidireccionales de Transformadores (BERT) ofrecen un enfoque novedoso para la representación semántica en cálculos de similitud semántica. Sin embargo, debido a la especificidad de las terminologías médicas, estos modelos a menudo tienen dificultades para representar con precisión términos médicos semánticamente similares, lo que lleva a inexactitudes en la representación de términos y, en consecuencia, afecta la precisión de los cálculos de similitud. Para abordar este desafío, este estudio emplea Chat Generative Pre-trained Transformer (ChatGPT) y pérdida contrastiva durante la fase de entrenamiento para adaptar BERT, mejorando sus capacidades de representación semántica y mejorando la precisión de los cálculos de similitud. Específicamente, aprovechamos ChatGPT-3.5 para generar textos semánticamente similares para terminologías médicas profesionales, incorporándolos como pseudoetiquetas en el proceso de entrenamiento del modelo. Posteriormente, se utiliza la pérdida contrastiva para minimizar la distancia entre muestras relevantes y maximizar la distancia entre muestras irrelevantes, mejorando así el rendimiento de los modelos de similitud médica, especialmente con muestras de entrenamiento limitadas. La validación experimental se lleva a cabo en el conjunto de datos abierto de Registros de Salud Electrónicos (OpenEHR), dividido aleatoriamente en cuatro grupos para verificar la efectividad de la metodología propuesta.
Descripción
Calcular la similitud semántica es fundamental en el procesamiento de información médica, y tiene como objetivo evaluar la similitud de las terminologías médicas profesionales dentro de las bases de datos médicas. Los modelos de lenguaje natural basados en Representaciones de Codificadores Bidireccionales de Transformadores (BERT) ofrecen un enfoque novedoso para la representación semántica en cálculos de similitud semántica. Sin embargo, debido a la especificidad de las terminologías médicas, estos modelos a menudo tienen dificultades para representar con precisión términos médicos semánticamente similares, lo que lleva a inexactitudes en la representación de términos y, en consecuencia, afecta la precisión de los cálculos de similitud. Para abordar este desafío, este estudio emplea Chat Generative Pre-trained Transformer (ChatGPT) y pérdida contrastiva durante la fase de entrenamiento para adaptar BERT, mejorando sus capacidades de representación semántica y mejorando la precisión de los cálculos de similitud. Específicamente, aprovechamos ChatGPT-3.5 para generar textos semánticamente similares para terminologías médicas profesionales, incorporándolos como pseudoetiquetas en el proceso de entrenamiento del modelo. Posteriormente, se utiliza la pérdida contrastiva para minimizar la distancia entre muestras relevantes y maximizar la distancia entre muestras irrelevantes, mejorando así el rendimiento de los modelos de similitud médica, especialmente con muestras de entrenamiento limitadas. La validación experimental se lleva a cabo en el conjunto de datos abierto de Registros de Salud Electrónicos (OpenEHR), dividido aleatoriamente en cuatro grupos para verificar la efectividad de la metodología propuesta.