Modelos de Lenguaje Grande para la Desidentificación de Registros Electrónicos de Salud en Inglés y Alemán
Autores: Sousa, Samuel; Jantscher, Michael; Kröll, Mark; Kern, Roman
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Modelos de Lenguaje Grande para la Desidentificación de Registros Electrónicos de Salud en Inglés y Alemán
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Historia clínica electrónica
Desidentificación
Información de salud protegida
Regulaciones de privacidad
Modelos de lenguaje grandes
Aprendizaje en contexto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La desidentificación de registros electrónicos de salud (EHR) es crucial para publicar o compartir datos médicos sin violar la privacidad del paciente. La información de salud protegida (PHI) es abundante en los EHR, y las regulaciones de privacidad en todo el mundo exigen la desidentificación antes de realizar tareas posteriores. La generación de datos en el sector de la salud está en constante crecimiento y la llegada de la inteligencia artificial generativa ha aumentado la demanda de EHR desidentificados y ha puesto de relieve los problemas de privacidad con los modelos de lenguaje de gran tamaño (LLMs), especialmente en la transmisión de datos a LLMs basados en la nube. En este estudio, evaluamos diez LLMs para desidentificar EHRs en inglés y alemán. Luego comparamos el rendimiento de desidentificación para el aprendizaje en contexto y el ajuste fino completo del modelo y analizamos las limitaciones de los LLMs para esta tarea. Nuestra evaluación experimental muestra que los LLMs desidentifican eficazmente los EHRs en ambos idiomas. Además, el aprendizaje en contexto con un ajuste de una sola vez mejora el rendimiento de desidentificación sin el costoso ajuste fino completo de los LLMs.
Descripción
La desidentificación de registros electrónicos de salud (EHR) es crucial para publicar o compartir datos médicos sin violar la privacidad del paciente. La información de salud protegida (PHI) es abundante en los EHR, y las regulaciones de privacidad en todo el mundo exigen la desidentificación antes de realizar tareas posteriores. La generación de datos en el sector de la salud está en constante crecimiento y la llegada de la inteligencia artificial generativa ha aumentado la demanda de EHR desidentificados y ha puesto de relieve los problemas de privacidad con los modelos de lenguaje de gran tamaño (LLMs), especialmente en la transmisión de datos a LLMs basados en la nube. En este estudio, evaluamos diez LLMs para desidentificar EHRs en inglés y alemán. Luego comparamos el rendimiento de desidentificación para el aprendizaje en contexto y el ajuste fino completo del modelo y analizamos las limitaciones de los LLMs para esta tarea. Nuestra evaluación experimental muestra que los LLMs desidentifican eficazmente los EHRs en ambos idiomas. Además, el aprendizaje en contexto con un ajuste de una sola vez mejora el rendimiento de desidentificación sin el costoso ajuste fino completo de los LLMs.