logo móvil
Contáctanos

De modelos de lenguaje a diagnósticos médicos: evaluando el potencial de GPT-4 y GPT-3.5-Turbo en salud digital

Autores: Roos, Jonas; Wilhelm, Theresa Isabelle; Martin, Ron; Kaczmarczyk, Robert

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

De modelos de lenguaje a diagnósticos médicos: evaluando el potencial de GPT-4 y GPT-3.5-Turbo en salud digital


Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Modelos de lenguaje
Diagnósticos médicos
GPT-4
Competencia diagnóstica
Conjuntos de datos en inglés y alemán
Métricas de rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
Antecedentes: Los grandes modelos de lenguaje (LLMs) como GPT-3.5-Turbo y GPT-4 muestran potencial para transformar el diagnóstico médico a través de sus capacidades lingüísticas y analíticas. Este estudio evalúa su competencia diagnóstica utilizando conjuntos de datos de exámenes médicos en inglés y alemán. Métodos: Analizamos 452 preguntas de exámenes médicos en inglés y 637 en alemán utilizando modelos GPT. Las métricas de rendimiento incluyeron tasas de precisión amplia y exacta para las suposiciones generadas por el modelo primario y tres modelos, con un análisis del rendimiento frente a variaciones en la dificultad de las preguntas basadas en las tasas de precisión de los estudiantes. Resultados: GPT-4 demostró un rendimiento superior, alcanzando hasta un 95.4% de precisión al considerar la similitud aproximada en los conjuntos de datos en inglés. Mientras que GPT-3.5-Turbo mostró mejores resultados en inglés, GPT-4 mantuvo un rendimiento consistente en ambos idiomas. La dificultad de las preguntas se correlacionó con la precisión diagnóstica, especialmente en los conjuntos de datos en alemán. Conclusiones: El estudio demuestra las significativas capacidades diagnósticas de GPT-4 y su flexibilidad interlingüística, sugiriendo un potencial para aplicaciones clínicas. Sin embargo, se necesitan validaciones adicionales y consideraciones éticas antes de una implementación generalizada.

Otros recursos que podrían interesarte

Temas Virtualpro