La Evolución Temporal del Rendimiento de Modelos de Lenguaje Grande: Un Análisis Comparativo de Resultados Pasados y Actuales en Investigación Científica y Médica

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

La Evolución Temporal del Rendimiento de Modelos de Lenguaje Grande: Un Análisis Comparativo de Resultados Pasados y Actuales en Investigación Científica y Médica

Autores: Seth, Ishith; Marcaccini, Gianluca; Lim, Bryan; Novo, Jennifer; Bacchi, Stephen; Cuomo, Roberto; Ross, Richard J.; Rozen, Warren M.

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

La Evolución Temporal del Rendimiento de Modelos de Lenguaje Grande: Un Análisis Comparativo de Resultados Pasados y Actuales en Investigación Científica y Médica

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje

ChatGPT

Académico

Clínico

Evolución del rendimiento

ChatGPT-4.5

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Antecedentes: Los grandes modelos de lenguaje (LLMs) como ChatGPT han evolucionado rápidamente, con mejoras notables en coherencia, precisión fáctica y relevancia contextual. Sin embargo, su aplicabilidad académica y clínica sigue siendo objeto de escrutinio. Este estudio evalúa la evolución del rendimiento temporal de los LLMs comparando las salidas de modelos anteriores (GPT-3.5 y GPT-4.0) con ChatGPT-4.5 en tres dominios: asesoramiento en cirugía estética, una base de discusión académica sobre la artritis del pulgar y una revisión sistemática de la literatura. Métodos: Replicamos las metodologías de tres estudios publicados anteriormente utilizando los mismos prompts en ChatGPT-4.5. Cada salida fue evaluada en comparación con su predecesora utilizando una rúbrica basada en Likert de nueve dominios que mide precisión fáctica, completitud, calidad de referencia, claridad, percepción clínica, razonamiento científico, evitación de sesgos, utilidad e interactividad. Revisores expertos en cirugía plástica y reconstructiva puntuaron y compararon de manera independiente las salidas de los modelos a través de las versiones. Resultados: ChatGPT-4.5 superó a las versiones anteriores en todos los dominios. La calidad de referencia mejoró de manera más significativa (un aumento de puntuación de +4.5), seguida de la precisión fáctica (+2.5), el razonamiento científico (+2.5) y la utilidad (+2.5). En el asesoramiento de cirugía estética, GPT-3.5 produjo respuestas genéricas que carecían de detalle clínico, mientras que ChatGPT-4.5 ofreció consejos personalizados, estructurados y psicológicamente sensibles. En la escritura académica, ChatGPT-4.5 eliminó la alucinación de referencias, aplicó correctamente las jerarquías de evidencia y demostró un razonamiento avanzado. En la revisión de literatura, el recuerdo se mantuvo subóptimo, pero la precisión, la exactitud de las citas y la profundidad contextual mejoraron sustancialmente. Conclusión: ChatGPT-4.5 representa un gran avance en la capacidad de los LLM, particularmente en la generación de contenido académico y clínico confiable. Aunque aún no es adecuado como herramienta de toma de decisiones independiente, sus salidas ahora apoyan la planificación de investigaciones y la preparación de manuscritos en etapas tempranas. Las limitaciones persistentes incluyen el recuerdo de información y la flexibilidad interpretativa. La validación continua es esencial para garantizar un uso ético y efectivo en los flujos de trabajo científicos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro