Comparación de múltiples modelos de lenguaje grandes para la extracción automatizada de datos de ensayos clínicos en la investigación del envejecimiento
Autores: Young, Richard J.; Matthews, Alice M.; Poston, Brach
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Comparación de múltiples modelos de lenguaje grandes para la extracción automatizada de datos de ensayos clínicos en la investigación del envejecimiento
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Modelos de lenguaje grandes
Síntesis de evidencia
LLMs
Estimulación transcraneal de corriente continua
Ensayos relacionados con el envejecimiento
Pipeline de conjunto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Los modelos de lenguaje grandes (LLMs) muestran promesa para automatizar la síntesis de evidencia, sin embargo, las evaluaciones comparativas son escasas. Benchmarked cinco LLMs de última generación -openai/o1-mini, x-ai/grok-2-1212, meta-llama/Llama-3.3-70B-Instruct, google/Gemini-Flash-1.5-8B, y deepseek/DeepSeek-R1-70B-Distill- en la extracción de detalles del protocolo de ensayos de estimulación transcraneal de corriente continua (tDCS) en adultos mayores. Una tubería de conjunto de múltiples LLMs ingirió registros de ClinicalTrials.gov, aplicó un esquema JSON estructurado y generó resultados comparables a partir de texto no estructurado. La tubería recuperó 83 ensayos de tDCS relacionados con el envejecimiento, aproximadamente el doble del rendimiento de una búsqueda de palabras clave convencional. Entre los modelos, el acuerdo fue casi perfecto para el campo binario de estimulación cerebral utilizada (Fleiss ~ 0.92) y sustancial para el objetivo primario categórico (~ 0.71). Los parámetros numéricos como la intensidad de estimulación y la duración de la sesión mostraron una excelente consistencia cuando se informaron explícitamente (CCI 0.95-0.96); los objetivos secundarios y las frases de duración de texto libre siguieron siendo desafiantes (~ 0.61; CCI ~ 0.35). Un consenso de conjunto (votación mayoritaria o promedio) resolvió la mayoría de las discrepancias y proporcionó una confiabilidad casi perfecta en los atributos principales de estimulación (= 0.94). Estos resultados demuestran que los conjuntos de múltiples LLMs pueden expandir notablemente la cobertura de ensayos y alcanzar una precisión de nivel experto en campos bien definidos, aunque aún requieren supervisión humana para detalles matizados o escasamente informados. El benchmark y el flujo de trabajo de código abierto establecen una línea base sólida para futuros avances en ingeniería de indicaciones, especialización de modelos y estrategias de conjunto dirigidas a la síntesis de evidencia totalmente automatizada en la investigación de neuroestimulación que involucra a poblaciones envejecidas. En general, el conjunto de múltiples LLMs de cinco modelos duplicó el número de ensayos de tDCS relacionados con el envejecimiento elegibles recuperados en comparación con la búsqueda de palabras clave y logró un acuerdo casi perfecto en los parámetros principales de estimulación (~ 0.94), demostrando una precisión de extracción de nivel experto.
Descripción
Los modelos de lenguaje grandes (LLMs) muestran promesa para automatizar la síntesis de evidencia, sin embargo, las evaluaciones comparativas son escasas. Benchmarked cinco LLMs de última generación -openai/o1-mini, x-ai/grok-2-1212, meta-llama/Llama-3.3-70B-Instruct, google/Gemini-Flash-1.5-8B, y deepseek/DeepSeek-R1-70B-Distill- en la extracción de detalles del protocolo de ensayos de estimulación transcraneal de corriente continua (tDCS) en adultos mayores. Una tubería de conjunto de múltiples LLMs ingirió registros de ClinicalTrials.gov, aplicó un esquema JSON estructurado y generó resultados comparables a partir de texto no estructurado. La tubería recuperó 83 ensayos de tDCS relacionados con el envejecimiento, aproximadamente el doble del rendimiento de una búsqueda de palabras clave convencional. Entre los modelos, el acuerdo fue casi perfecto para el campo binario de estimulación cerebral utilizada (Fleiss ~ 0.92) y sustancial para el objetivo primario categórico (~ 0.71). Los parámetros numéricos como la intensidad de estimulación y la duración de la sesión mostraron una excelente consistencia cuando se informaron explícitamente (CCI 0.95-0.96); los objetivos secundarios y las frases de duración de texto libre siguieron siendo desafiantes (~ 0.61; CCI ~ 0.35). Un consenso de conjunto (votación mayoritaria o promedio) resolvió la mayoría de las discrepancias y proporcionó una confiabilidad casi perfecta en los atributos principales de estimulación (= 0.94). Estos resultados demuestran que los conjuntos de múltiples LLMs pueden expandir notablemente la cobertura de ensayos y alcanzar una precisión de nivel experto en campos bien definidos, aunque aún requieren supervisión humana para detalles matizados o escasamente informados. El benchmark y el flujo de trabajo de código abierto establecen una línea base sólida para futuros avances en ingeniería de indicaciones, especialización de modelos y estrategias de conjunto dirigidas a la síntesis de evidencia totalmente automatizada en la investigación de neuroestimulación que involucra a poblaciones envejecidas. En general, el conjunto de múltiples LLMs de cinco modelos duplicó el número de ensayos de tDCS relacionados con el envejecimiento elegibles recuperados en comparación con la búsqueda de palabras clave y logró un acuerdo casi perfecto en los parámetros principales de estimulación (~ 0.94), demostrando una precisión de extracción de nivel experto.