El preprocesamiento de notas de médicos por LLMs mejora la extracción de conceptos clínicos sin pérdida de información
Autores: Hier, Daniel B.; Carrithers, Michael A.; Platt, Steven K.; Nguyen, Anh; Giannopoulos, Ioannis; Obafemi-Ajayi, Tayo
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
El preprocesamiento de notas de médicos por LLMs mejora la extracción de conceptos clínicos sin pérdida de información
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Fuente de información del paciente
Inconsistencias
Estilos de escritura
Abreviaturas
Jerga médica
Aplicaciones posteriores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las notas de los clínicos son una fuente rica de información sobre los pacientes, pero a menudo contienen inconsistencias debido a estilos de escritura variados, abreviaturas, jerga médica, errores gramaticales y formatos no estándar. Estas inconsistencias obstaculizan su uso directo en la atención al paciente y degradan el rendimiento de las aplicaciones computacionales posteriores que dependen de estas notas como entrada, como la mejora de la calidad, la analítica de salud poblacional, la medicina de precisión, el soporte a la decisión clínica y la investigación. Presentamos un enfoque de modelo de lenguaje grande (LLM) para el preprocesamiento de 1618 notas de neurología. El LLM corrigió errores de ortografía y gramaticales, expandió acrónimos y estandarizó la terminología y el formato, sin alterar el contenido clínico. La revisión de expertos de notas muestreadas al azar confirmó que no se perdió información significativa. Para evaluar el impacto posterior, aplicamos una tubería de PLN basada en ontología (Doc2Hpo) para extraer conceptos biomédicos de las notas antes y después de la edición. Las puntuaciones F1 para la extracción de la Ontología de Fenotipos Humanos mejoraron de 0.40 a 0.61, confirmando nuestra hipótesis de que mejores entradas generan mejores salidas. Concluimos que el preprocesamiento basado en LLM es una estrategia efectiva de corrección de errores que mejora la calidad de los datos a nivel de texto libre en las notas clínicas. Este enfoque puede mejorar el rendimiento de una amplia clase de aplicaciones posteriores que derivan su entrada de la documentación clínica no estructurada.
Descripción
Las notas de los clínicos son una fuente rica de información sobre los pacientes, pero a menudo contienen inconsistencias debido a estilos de escritura variados, abreviaturas, jerga médica, errores gramaticales y formatos no estándar. Estas inconsistencias obstaculizan su uso directo en la atención al paciente y degradan el rendimiento de las aplicaciones computacionales posteriores que dependen de estas notas como entrada, como la mejora de la calidad, la analítica de salud poblacional, la medicina de precisión, el soporte a la decisión clínica y la investigación. Presentamos un enfoque de modelo de lenguaje grande (LLM) para el preprocesamiento de 1618 notas de neurología. El LLM corrigió errores de ortografía y gramaticales, expandió acrónimos y estandarizó la terminología y el formato, sin alterar el contenido clínico. La revisión de expertos de notas muestreadas al azar confirmó que no se perdió información significativa. Para evaluar el impacto posterior, aplicamos una tubería de PLN basada en ontología (Doc2Hpo) para extraer conceptos biomédicos de las notas antes y después de la edición. Las puntuaciones F1 para la extracción de la Ontología de Fenotipos Humanos mejoraron de 0.40 a 0.61, confirmando nuestra hipótesis de que mejores entradas generan mejores salidas. Concluimos que el preprocesamiento basado en LLM es una estrategia efectiva de corrección de errores que mejora la calidad de los datos a nivel de texto libre en las notas clínicas. Este enfoque puede mejorar el rendimiento de una amplia clase de aplicaciones posteriores que derivan su entrada de la documentación clínica no estructurada.