La Evolución Temporal del Rendimiento de Modelos de Lenguaje Grande: Un Análisis Comparativo de Resultados Pasados y Actuales en Investigación Científica y Médica
Autores: Seth, Ishith; Marcaccini, Gianluca; Lim, Bryan; Novo, Jennifer; Bacchi, Stephen; Cuomo, Roberto; Ross, Richard J.; Rozen, Warren M.
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
La Evolución Temporal del Rendimiento de Modelos de Lenguaje Grande: Un Análisis Comparativo de Resultados Pasados y Actuales en Investigación Científica y Médica
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de lenguaje
ChatGPT
Académico
Clínico
Evolución del rendimiento
ChatGPT-4.5
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Antecedentes: Los grandes modelos de lenguaje (LLMs) como ChatGPT han evolucionado rápidamente, con mejoras notables en coherencia, precisión fáctica y relevancia contextual. Sin embargo, su aplicabilidad académica y clínica sigue siendo objeto de escrutinio. Este estudio evalúa la evolución del rendimiento temporal de los LLMs comparando las salidas de modelos anteriores (GPT-3.5 y GPT-4.0) con ChatGPT-4.5 en tres dominios: asesoramiento en cirugía estética, una base de discusión académica sobre la artritis del pulgar y una revisión sistemática de la literatura. Métodos: Replicamos las metodologías de tres estudios publicados anteriormente utilizando los mismos prompts en ChatGPT-4.5. Cada salida fue evaluada en comparación con su predecesora utilizando una rúbrica basada en Likert de nueve dominios que mide precisión fáctica, completitud, calidad de referencia, claridad, percepción clínica, razonamiento científico, evitación de sesgos, utilidad e interactividad. Revisores expertos en cirugía plástica y reconstructiva puntuaron y compararon de manera independiente las salidas de los modelos a través de las versiones. Resultados: ChatGPT-4.5 superó a las versiones anteriores en todos los dominios. La calidad de referencia mejoró de manera más significativa (un aumento de puntuación de +4.5), seguida de la precisión fáctica (+2.5), el razonamiento científico (+2.5) y la utilidad (+2.5). En el asesoramiento de cirugía estética, GPT-3.5 produjo respuestas genéricas que carecían de detalle clínico, mientras que ChatGPT-4.5 ofreció consejos personalizados, estructurados y psicológicamente sensibles. En la escritura académica, ChatGPT-4.5 eliminó la alucinación de referencias, aplicó correctamente las jerarquías de evidencia y demostró un razonamiento avanzado. En la revisión de literatura, el recuerdo se mantuvo subóptimo, pero la precisión, la exactitud de las citas y la profundidad contextual mejoraron sustancialmente. Conclusión: ChatGPT-4.5 representa un gran avance en la capacidad de los LLM, particularmente en la generación de contenido académico y clínico confiable. Aunque aún no es adecuado como herramienta de toma de decisiones independiente, sus salidas ahora apoyan la planificación de investigaciones y la preparación de manuscritos en etapas tempranas. Las limitaciones persistentes incluyen el recuerdo de información y la flexibilidad interpretativa. La validación continua es esencial para garantizar un uso ético y efectivo en los flujos de trabajo científicos.
Descripción
Antecedentes: Los grandes modelos de lenguaje (LLMs) como ChatGPT han evolucionado rápidamente, con mejoras notables en coherencia, precisión fáctica y relevancia contextual. Sin embargo, su aplicabilidad académica y clínica sigue siendo objeto de escrutinio. Este estudio evalúa la evolución del rendimiento temporal de los LLMs comparando las salidas de modelos anteriores (GPT-3.5 y GPT-4.0) con ChatGPT-4.5 en tres dominios: asesoramiento en cirugía estética, una base de discusión académica sobre la artritis del pulgar y una revisión sistemática de la literatura. Métodos: Replicamos las metodologías de tres estudios publicados anteriormente utilizando los mismos prompts en ChatGPT-4.5. Cada salida fue evaluada en comparación con su predecesora utilizando una rúbrica basada en Likert de nueve dominios que mide precisión fáctica, completitud, calidad de referencia, claridad, percepción clínica, razonamiento científico, evitación de sesgos, utilidad e interactividad. Revisores expertos en cirugía plástica y reconstructiva puntuaron y compararon de manera independiente las salidas de los modelos a través de las versiones. Resultados: ChatGPT-4.5 superó a las versiones anteriores en todos los dominios. La calidad de referencia mejoró de manera más significativa (un aumento de puntuación de +4.5), seguida de la precisión fáctica (+2.5), el razonamiento científico (+2.5) y la utilidad (+2.5). En el asesoramiento de cirugía estética, GPT-3.5 produjo respuestas genéricas que carecían de detalle clínico, mientras que ChatGPT-4.5 ofreció consejos personalizados, estructurados y psicológicamente sensibles. En la escritura académica, ChatGPT-4.5 eliminó la alucinación de referencias, aplicó correctamente las jerarquías de evidencia y demostró un razonamiento avanzado. En la revisión de literatura, el recuerdo se mantuvo subóptimo, pero la precisión, la exactitud de las citas y la profundidad contextual mejoraron sustancialmente. Conclusión: ChatGPT-4.5 representa un gran avance en la capacidad de los LLM, particularmente en la generación de contenido académico y clínico confiable. Aunque aún no es adecuado como herramienta de toma de decisiones independiente, sus salidas ahora apoyan la planificación de investigaciones y la preparación de manuscritos en etapas tempranas. Las limitaciones persistentes incluyen el recuerdo de información y la flexibilidad interpretativa. La validación continua es esencial para garantizar un uso ético y efectivo en los flujos de trabajo científicos.