De modelos de lenguaje a diagnósticos médicos: evaluando el potencial de GPT-4 y GPT-3.5-Turbo en salud digital
Autores: Roos, Jonas; Wilhelm, Theresa Isabelle; Martin, Ron; Kaczmarczyk, Robert
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
De modelos de lenguaje a diagnósticos médicos: evaluando el potencial de GPT-4 y GPT-3.5-Turbo en salud digital
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Modelos de lenguaje
Diagnósticos médicos
GPT-4
Competencia diagnóstica
Conjuntos de datos en inglés y alemán
Métricas de rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Antecedentes: Los grandes modelos de lenguaje (LLMs) como GPT-3.5-Turbo y GPT-4 muestran potencial para transformar el diagnóstico médico a través de sus capacidades lingüísticas y analíticas. Este estudio evalúa su competencia diagnóstica utilizando conjuntos de datos de exámenes médicos en inglés y alemán. Métodos: Analizamos 452 preguntas de exámenes médicos en inglés y 637 en alemán utilizando modelos GPT. Las métricas de rendimiento incluyeron tasas de precisión amplia y exacta para las suposiciones generadas por el modelo primario y tres modelos, con un análisis del rendimiento frente a variaciones en la dificultad de las preguntas basadas en las tasas de precisión de los estudiantes. Resultados: GPT-4 demostró un rendimiento superior, alcanzando hasta un 95.4% de precisión al considerar la similitud aproximada en los conjuntos de datos en inglés. Mientras que GPT-3.5-Turbo mostró mejores resultados en inglés, GPT-4 mantuvo un rendimiento consistente en ambos idiomas. La dificultad de las preguntas se correlacionó con la precisión diagnóstica, especialmente en los conjuntos de datos en alemán. Conclusiones: El estudio demuestra las significativas capacidades diagnósticas de GPT-4 y su flexibilidad interlingüística, sugiriendo un potencial para aplicaciones clínicas. Sin embargo, se necesitan validaciones adicionales y consideraciones éticas antes de una implementación generalizada.
Descripción
Antecedentes: Los grandes modelos de lenguaje (LLMs) como GPT-3.5-Turbo y GPT-4 muestran potencial para transformar el diagnóstico médico a través de sus capacidades lingüísticas y analíticas. Este estudio evalúa su competencia diagnóstica utilizando conjuntos de datos de exámenes médicos en inglés y alemán. Métodos: Analizamos 452 preguntas de exámenes médicos en inglés y 637 en alemán utilizando modelos GPT. Las métricas de rendimiento incluyeron tasas de precisión amplia y exacta para las suposiciones generadas por el modelo primario y tres modelos, con un análisis del rendimiento frente a variaciones en la dificultad de las preguntas basadas en las tasas de precisión de los estudiantes. Resultados: GPT-4 demostró un rendimiento superior, alcanzando hasta un 95.4% de precisión al considerar la similitud aproximada en los conjuntos de datos en inglés. Mientras que GPT-3.5-Turbo mostró mejores resultados en inglés, GPT-4 mantuvo un rendimiento consistente en ambos idiomas. La dificultad de las preguntas se correlacionó con la precisión diagnóstica, especialmente en los conjuntos de datos en alemán. Conclusiones: El estudio demuestra las significativas capacidades diagnósticas de GPT-4 y su flexibilidad interlingüística, sugiriendo un potencial para aplicaciones clínicas. Sin embargo, se necesitan validaciones adicionales y consideraciones éticas antes de una implementación generalizada.