El conocimiento previo moldea el éxito cuando los modelos de lenguaje grandes son ajustados para la normalización de términos biomédicos
Autores: Hier, Daniel B.; Platt, Steven K.; Nguyen, Anh
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
El conocimiento previo moldea el éxito cuando los modelos de lenguaje grandes son ajustados para la normalización de términos biomédicos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de lenguaje grandes
Términos biomédicos
Identificadores de ontología
Ajuste fino
Conocimiento previo
Precisión de enlace
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los modelos de lenguaje grandes (LLMs) a menudo no logran asociar correctamente los términos biomédicos con sus identificadores de ontología estandarizados, lo que plantea desafíos para las aplicaciones posteriores que dependen de códigos precisos y legibles por máquina. Estos fallos de vinculación pueden comprometer la integridad de los datos utilizados en medicina de precisión, soporte a la decisión clínica y salud poblacional. El ajuste fino puede remediar parcialmente estos problemas, pero el grado de mejora varía entre términos y terminologías. Centrándonos en la Ontología del Fenotipo Humano (HPO), mostramos que el conocimiento previo de un modelo sobre pares de términos e identificadores, adquirido durante el preentrenamiento, predice fuertemente si el ajuste fino mejorará su precisión de vinculación. Evaluamos el conocimiento previo de tres maneras complementarias: (1) conocimiento probabilístico latente, revelado a través de la inducción estocástica, captura asociaciones ocultas no evidentes en la salida determinista; (2) conocimiento parcial de subtokens, reflejado en la generación incompleta pero no aleatoria de componentes de identificadores; y (3) familiaridad con el término, inferida de las frecuencias de anotación en la literatura biomédica, que sirven como un proxy para la exposición al entrenamiento. Luego evaluamos cómo estas formas de conocimiento previo influyen en la precisión de la vinculación de identificadores deterministas. El rendimiento del ajuste fino varía más para los términos en lo que llamamos la zona media reactiva de la ontología: términos con niveles intermedios de conocimiento previo que no están ausentes ni completamente consolidados. El ajuste fino fue más exitoso cuando el conocimiento previo medido por el conocimiento parcial de subtokens era "débil" o "medio" o cuando el conocimiento previo medido por el conocimiento probabilístico latente era "desconocido" o "débil" (p<0.001). Estos términos de la "mitad reactiva" exhibieron las mayores ganancias o pérdidas en precisión durante el ajuste fino, lo que sugiere que el éxito de la inyección de conocimiento depende críticamente del nivel de conocimiento de pares de términos e identificadores en el LLM antes del ajuste fino.
Descripción
Los modelos de lenguaje grandes (LLMs) a menudo no logran asociar correctamente los términos biomédicos con sus identificadores de ontología estandarizados, lo que plantea desafíos para las aplicaciones posteriores que dependen de códigos precisos y legibles por máquina. Estos fallos de vinculación pueden comprometer la integridad de los datos utilizados en medicina de precisión, soporte a la decisión clínica y salud poblacional. El ajuste fino puede remediar parcialmente estos problemas, pero el grado de mejora varía entre términos y terminologías. Centrándonos en la Ontología del Fenotipo Humano (HPO), mostramos que el conocimiento previo de un modelo sobre pares de términos e identificadores, adquirido durante el preentrenamiento, predice fuertemente si el ajuste fino mejorará su precisión de vinculación. Evaluamos el conocimiento previo de tres maneras complementarias: (1) conocimiento probabilístico latente, revelado a través de la inducción estocástica, captura asociaciones ocultas no evidentes en la salida determinista; (2) conocimiento parcial de subtokens, reflejado en la generación incompleta pero no aleatoria de componentes de identificadores; y (3) familiaridad con el término, inferida de las frecuencias de anotación en la literatura biomédica, que sirven como un proxy para la exposición al entrenamiento. Luego evaluamos cómo estas formas de conocimiento previo influyen en la precisión de la vinculación de identificadores deterministas. El rendimiento del ajuste fino varía más para los términos en lo que llamamos la zona media reactiva de la ontología: términos con niveles intermedios de conocimiento previo que no están ausentes ni completamente consolidados. El ajuste fino fue más exitoso cuando el conocimiento previo medido por el conocimiento parcial de subtokens era "débil" o "medio" o cuando el conocimiento previo medido por el conocimiento probabilístico latente era "desconocido" o "débil" (p<0.001). Estos términos de la "mitad reactiva" exhibieron las mayores ganancias o pérdidas en precisión durante el ajuste fino, lo que sugiere que el éxito de la inyección de conocimiento depende críticamente del nivel de conocimiento de pares de términos e identificadores en el LLM antes del ajuste fino.