De GPT-3.5 a GPT-4.o: Un salto en el rendimiento de los exámenes médicos de la IA
Autores: Kipp, Markus
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
De GPT-3.5 a GPT-4.o: Un salto en el rendimiento de los exámenes médicos de la IA
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelo de lenguaje grande
Tareas diversas basadas en el lenguaje
GPT-4.o
Exámenes de licencia médica
Tasa de precisión
Educación médica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
ChatGPT es un modelo de lenguaje grande entrenado en conjuntos de datos cada vez más grandes para realizar diversas tareas basadas en el lenguaje. Es capaz de responder preguntas de opción múltiple, como las planteadas en diversos exámenes médicos. ChatGPT ha generado una atención considerable en dominios académicos y no académicos en los últimos meses. En este estudio, nuestro objetivo fue evaluar el rendimiento de GPT en preguntas de opción múltiple anatómicas extraídas de exámenes de licencia médica en Alemania. Se compararon dos versiones diferentes. GPT-3.5 demostró una precisión moderada, respondiendo correctamente entre el 60% y el 64% de las preguntas de los exámenes de otoño de 2022 y primavera de 2021. En contraste, GPT-4.0 mostró una mejora significativa, logrando una precisión del 93% en el examen de otoño de 2022 y del 100% en el examen de primavera de 2021. Cuando se probó con 30 preguntas únicas no disponibles en línea, GPT-4.0 mantuvo una tasa de precisión del 96%. Además, GPT-4.0 superó consistentemente a los estudiantes de medicina en seis exámenes estatales, con una puntuación media estadísticamente significativa del 95.54% en comparación con el 72.15% de los estudiantes. El estudio demuestra que GPT-4.0 supera tanto a su predecesor, GPT-3.5, como a un grupo de estudiantes de medicina, lo que indica su potencial como una herramienta poderosa en la educación y evaluación médica. Esta mejora destaca la rápida evolución de los LLM y sugiere que la IA podría desempeñar un papel cada vez más importante en el apoyo y la mejora de la formación médica, ofreciendo potencialmente recursos suplementarios para estudiantes y profesionales. Sin embargo, se necesita más investigación para evaluar las limitaciones y aplicaciones prácticas de tales sistemas de IA en la práctica médica del mundo real.
Descripción
ChatGPT es un modelo de lenguaje grande entrenado en conjuntos de datos cada vez más grandes para realizar diversas tareas basadas en el lenguaje. Es capaz de responder preguntas de opción múltiple, como las planteadas en diversos exámenes médicos. ChatGPT ha generado una atención considerable en dominios académicos y no académicos en los últimos meses. En este estudio, nuestro objetivo fue evaluar el rendimiento de GPT en preguntas de opción múltiple anatómicas extraídas de exámenes de licencia médica en Alemania. Se compararon dos versiones diferentes. GPT-3.5 demostró una precisión moderada, respondiendo correctamente entre el 60% y el 64% de las preguntas de los exámenes de otoño de 2022 y primavera de 2021. En contraste, GPT-4.0 mostró una mejora significativa, logrando una precisión del 93% en el examen de otoño de 2022 y del 100% en el examen de primavera de 2021. Cuando se probó con 30 preguntas únicas no disponibles en línea, GPT-4.0 mantuvo una tasa de precisión del 96%. Además, GPT-4.0 superó consistentemente a los estudiantes de medicina en seis exámenes estatales, con una puntuación media estadísticamente significativa del 95.54% en comparación con el 72.15% de los estudiantes. El estudio demuestra que GPT-4.0 supera tanto a su predecesor, GPT-3.5, como a un grupo de estudiantes de medicina, lo que indica su potencial como una herramienta poderosa en la educación y evaluación médica. Esta mejora destaca la rápida evolución de los LLM y sugiere que la IA podría desempeñar un papel cada vez más importante en el apoyo y la mejora de la formación médica, ofreciendo potencialmente recursos suplementarios para estudiantes y profesionales. Sin embargo, se necesita más investigación para evaluar las limitaciones y aplicaciones prácticas de tales sistemas de IA en la práctica médica del mundo real.