Comparación de múltiples modelos de lenguaje grandes para la extracción automatizada de datos de ensayos clínicos en la investigación del envejecimiento

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Comparación de múltiples modelos de lenguaje grandes para la extracción automatizada de datos de ensayos clínicos en la investigación del envejecimiento

Autores: Young, Richard J.; Matthews, Alice M.; Poston, Brach

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Comparación de múltiples modelos de lenguaje grandes para la extracción automatizada de datos de ensayos clínicos en la investigación del envejecimiento

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Modelos de lenguaje grandes

Síntesis de evidencia

LLMs

Estimulación transcraneal de corriente continua

Ensayos relacionados con el envejecimiento

Pipeline de conjunto

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones

Los modelos de lenguaje grandes (LLMs) muestran promesa para automatizar la síntesis de evidencia, sin embargo, las evaluaciones comparativas son escasas. Benchmarked cinco LLMs de última generación -openai/o1-mini, x-ai/grok-2-1212, meta-llama/Llama-3.3-70B-Instruct, google/Gemini-Flash-1.5-8B, y deepseek/DeepSeek-R1-70B-Distill- en la extracción de detalles del protocolo de ensayos de estimulación transcraneal de corriente continua (tDCS) en adultos mayores. Una tubería de conjunto de múltiples LLMs ingirió registros de ClinicalTrials.gov, aplicó un esquema JSON estructurado y generó resultados comparables a partir de texto no estructurado. La tubería recuperó 83 ensayos de tDCS relacionados con el envejecimiento, aproximadamente el doble del rendimiento de una búsqueda de palabras clave convencional. Entre los modelos, el acuerdo fue casi perfecto para el campo binario de estimulación cerebral utilizada (Fleiss ~ 0.92) y sustancial para el objetivo primario categórico (~ 0.71). Los parámetros numéricos como la intensidad de estimulación y la duración de la sesión mostraron una excelente consistencia cuando se informaron explícitamente (CCI 0.95-0.96); los objetivos secundarios y las frases de duración de texto libre siguieron siendo desafiantes (~ 0.61; CCI ~ 0.35). Un consenso de conjunto (votación mayoritaria o promedio) resolvió la mayoría de las discrepancias y proporcionó una confiabilidad casi perfecta en los atributos principales de estimulación (= 0.94). Estos resultados demuestran que los conjuntos de múltiples LLMs pueden expandir notablemente la cobertura de ensayos y alcanzar una precisión de nivel experto en campos bien definidos, aunque aún requieren supervisión humana para detalles matizados o escasamente informados. El benchmark y el flujo de trabajo de código abierto establecen una línea base sólida para futuros avances en ingeniería de indicaciones, especialización de modelos y estrategias de conjunto dirigidas a la síntesis de evidencia totalmente automatizada en la investigación de neuroestimulación que involucra a poblaciones envejecidas. En general, el conjunto de múltiples LLMs de cinco modelos duplicó el número de ensayos de tDCS relacionados con el envejecimiento elegibles recuperados en comparación con la búsqueda de palabras clave y logró un acuerdo casi perfecto en los parámetros principales de estimulación (~ 0.94), demostrando una precisión de extracción de nivel experto.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro