logo móvil
Contáctanos

Comparación de múltiples modelos de lenguaje grandes para la extracción automatizada de datos de ensayos clínicos en la investigación del envejecimiento

Autores: Young, Richard J.; Matthews, Alice M.; Poston, Brach

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Comparación de múltiples modelos de lenguaje grandes para la extracción automatizada de datos de ensayos clínicos en la investigación del envejecimiento


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Modelos de lenguaje grandes
Síntesis de evidencia
LLMs
Estimulación transcraneal de corriente continua
Ensayos relacionados con el envejecimiento
Pipeline de conjunto

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
Los modelos de lenguaje grandes (LLMs) muestran promesa para automatizar la síntesis de evidencia, sin embargo, las evaluaciones comparativas son escasas. Benchmarked cinco LLMs de última generación -openai/o1-mini, x-ai/grok-2-1212, meta-llama/Llama-3.3-70B-Instruct, google/Gemini-Flash-1.5-8B, y deepseek/DeepSeek-R1-70B-Distill- en la extracción de detalles del protocolo de ensayos de estimulación transcraneal de corriente continua (tDCS) en adultos mayores. Una tubería de conjunto de múltiples LLMs ingirió registros de ClinicalTrials.gov, aplicó un esquema JSON estructurado y generó resultados comparables a partir de texto no estructurado. La tubería recuperó 83 ensayos de tDCS relacionados con el envejecimiento, aproximadamente el doble del rendimiento de una búsqueda de palabras clave convencional. Entre los modelos, el acuerdo fue casi perfecto para el campo binario de estimulación cerebral utilizada (Fleiss ~ 0.92) y sustancial para el objetivo primario categórico (~ 0.71). Los parámetros numéricos como la intensidad de estimulación y la duración de la sesión mostraron una excelente consistencia cuando se informaron explícitamente (CCI 0.95-0.96); los objetivos secundarios y las frases de duración de texto libre siguieron siendo desafiantes (~ 0.61; CCI ~ 0.35). Un consenso de conjunto (votación mayoritaria o promedio) resolvió la mayoría de las discrepancias y proporcionó una confiabilidad casi perfecta en los atributos principales de estimulación (= 0.94). Estos resultados demuestran que los conjuntos de múltiples LLMs pueden expandir notablemente la cobertura de ensayos y alcanzar una precisión de nivel experto en campos bien definidos, aunque aún requieren supervisión humana para detalles matizados o escasamente informados. El benchmark y el flujo de trabajo de código abierto establecen una línea base sólida para futuros avances en ingeniería de indicaciones, especialización de modelos y estrategias de conjunto dirigidas a la síntesis de evidencia totalmente automatizada en la investigación de neuroestimulación que involucra a poblaciones envejecidas. En general, el conjunto de múltiples LLMs de cinco modelos duplicó el número de ensayos de tDCS relacionados con el envejecimiento elegibles recuperados en comparación con la búsqueda de palabras clave y logró un acuerdo casi perfecto en los parámetros principales de estimulación (~ 0.94), demostrando una precisión de extracción de nivel experto.

Otros recursos que podrían interesarte

Temas Virtualpro