logo móvil
Contáctanos

El conocimiento previo moldea el éxito cuando los modelos de lenguaje grandes son ajustados para la normalización de términos biomédicos

Autores: Hier, Daniel B.; Platt, Steven K.; Nguyen, Anh

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

El conocimiento previo moldea el éxito cuando los modelos de lenguaje grandes son ajustados para la normalización de términos biomédicos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje grandes
Términos biomédicos
Identificadores de ontología
Ajuste fino
Conocimiento previo
Precisión de enlace

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los modelos de lenguaje grandes (LLMs) a menudo no logran asociar correctamente los términos biomédicos con sus identificadores de ontología estandarizados, lo que plantea desafíos para las aplicaciones posteriores que dependen de códigos precisos y legibles por máquina. Estos fallos de vinculación pueden comprometer la integridad de los datos utilizados en medicina de precisión, soporte a la decisión clínica y salud poblacional. El ajuste fino puede remediar parcialmente estos problemas, pero el grado de mejora varía entre términos y terminologías. Centrándonos en la Ontología del Fenotipo Humano (HPO), mostramos que el conocimiento previo de un modelo sobre pares de términos e identificadores, adquirido durante el preentrenamiento, predice fuertemente si el ajuste fino mejorará su precisión de vinculación. Evaluamos el conocimiento previo de tres maneras complementarias: (1) conocimiento probabilístico latente, revelado a través de la inducción estocástica, captura asociaciones ocultas no evidentes en la salida determinista; (2) conocimiento parcial de subtokens, reflejado en la generación incompleta pero no aleatoria de componentes de identificadores; y (3) familiaridad con el término, inferida de las frecuencias de anotación en la literatura biomédica, que sirven como un proxy para la exposición al entrenamiento. Luego evaluamos cómo estas formas de conocimiento previo influyen en la precisión de la vinculación de identificadores deterministas. El rendimiento del ajuste fino varía más para los términos en lo que llamamos la zona media reactiva de la ontología: términos con niveles intermedios de conocimiento previo que no están ausentes ni completamente consolidados. El ajuste fino fue más exitoso cuando el conocimiento previo medido por el conocimiento parcial de subtokens era "débil" o "medio" o cuando el conocimiento previo medido por el conocimiento probabilístico latente era "desconocido" o "débil" (p<0.001). Estos términos de la "mitad reactiva" exhibieron las mayores ganancias o pérdidas en precisión durante el ajuste fino, lo que sugiere que el éxito de la inyección de conocimiento depende críticamente del nivel de conocimiento de pares de términos e identificadores en el LLM antes del ajuste fino.

Otros recursos que podrían interesarte

Temas Virtualpro