logo móvil
Contáctanos

Adaptación de BERT para el procesamiento de información médica con ChatGPT y aprendizaje contrastivo

Autores: Min, Lingtong; Fan, Ziman; Dou, Feiyang; Sun, Jiaao; Luo, Changsheng; Lv, Qinyi

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Adaptación de BERT para el procesamiento de información médica con ChatGPT y aprendizaje contrastivo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Similitud semántica
Procesamiento de información médica
BERT
ChatGPT
Pérdida contrastiva
Cálculos de similitud

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 53

Citaciones: Sin citaciones


Descripción
Calcular la similitud semántica es fundamental en el procesamiento de información médica, y tiene como objetivo evaluar la similitud de las terminologías médicas profesionales dentro de las bases de datos médicas. Los modelos de lenguaje natural basados en Representaciones de Codificadores Bidireccionales de Transformadores (BERT) ofrecen un enfoque novedoso para la representación semántica en cálculos de similitud semántica. Sin embargo, debido a la especificidad de las terminologías médicas, estos modelos a menudo tienen dificultades para representar con precisión términos médicos semánticamente similares, lo que lleva a inexactitudes en la representación de términos y, en consecuencia, afecta la precisión de los cálculos de similitud. Para abordar este desafío, este estudio emplea Chat Generative Pre-trained Transformer (ChatGPT) y pérdida contrastiva durante la fase de entrenamiento para adaptar BERT, mejorando sus capacidades de representación semántica y mejorando la precisión de los cálculos de similitud. Específicamente, aprovechamos ChatGPT-3.5 para generar textos semánticamente similares para terminologías médicas profesionales, incorporándolos como pseudoetiquetas en el proceso de entrenamiento del modelo. Posteriormente, se utiliza la pérdida contrastiva para minimizar la distancia entre muestras relevantes y maximizar la distancia entre muestras irrelevantes, mejorando así el rendimiento de los modelos de similitud médica, especialmente con muestras de entrenamiento limitadas. La validación experimental se lleva a cabo en el conjunto de datos abierto de Registros de Salud Electrónicos (OpenEHR), dividido aleatoriamente en cuatro grupos para verificar la efectividad de la metodología propuesta.

Otros recursos que podrían interesarte

Temas Virtualpro