logo móvil
Contáctanos

Validación de Modelos de Lenguaje Grande para la Selección de Títulos y Resúmenes en Revisiones Sistemáticas de Baja Prevalencia: Un Estudio de Caso en Ciencias Ambientales

Autores: Nawrath, Maximilian; Merlina, Andrea; Knight, Jemmima; Welch, Sam A.; Rashidian, Mahla; Seifert-Dähnn, Isabel

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Validación de Modelos de Lenguaje Grande para la Selección de Títulos y Resúmenes en Revisiones Sistemáticas de Baja Prevalencia: Un Estudio de Caso en Ciencias Ambientales


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Cribado de literatura
Modelos de lenguaje grandes
Métricas de evaluación
Revisiones sistemáticas
Métricas de clasificación
índices de acuerdo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La selección de literatura es un importante cuello de botella en las revisiones sistemáticas, sin embargo, los Modelos de Lenguaje Grande (LLMs) pueden reducir sustancialmente las cargas de trabajo. Sin embargo, el rendimiento varía entre modelos y es sensible a las métricas de evaluación, particularmente en contextos de selección de baja prevalencia. Validamos cinco LLMs (GPT-4.1, Claude 3.5 Sonnet, Gemini 2.0 Flash, DeepSeek V3 y Mistral Large) contra un conjunto de datos estándar de oro de 500 registros (8 inclusiones; 1.6% de prevalencia) utilizando un aviso conservador de cero disparos alineado con los flujos de trabajo estándar de revisión sistemática. El rendimiento se evaluó a través de métricas de clasificación (sensibilidad, especificidad, precisión), regresión logística (GLM; penalizada por Firth donde ocurrió separación) e índices de acuerdo (Cohen"s, MCC, PABAK, AC1 de Gwet). Gemini 2.0 Flash y Mistral Large no mostraron falsos negativos (1.00) pero diferían en especificidad (0.858 frente a 0.697) y precisión (0.860 frente a 0.702). GPT-4.1 y Claude 3.5 Sonnet tuvieron un rendimiento idéntico (sensibilidad 0.875; especificidad 0.876; precisión 0.876). En contraste, DeepSeek V3 maximizó la especificidad (0.980) y la precisión (0.970) pero demostró una menor sensibilidad (0.375). Los análisis de regresión confirmaron fuertes asociaciones positivas con las decisiones humanas (OR 28.9-49.5). Los índices de acuerdo revelaron el artefacto de baja prevalencia esperado, con un Cohen"s bajo a pesar de la alta concordancia, mientras que MCC, PABAK y AC1 indicaron un acuerdo sustancialmente más fuerte. Nuestros resultados destacan un trade-off fundamental entre sensibilidad y especificidad, con conclusiones dependientes del marco de evaluación elegido. Los LLMs pueden apoyar de manera significativa la selección de títulos y resúmenes como herramientas de apoyo a la decisión, siempre que se mantenga la supervisión humana y la validación sea transparente y reproducible.

Otros recursos que podrían interesarte

Temas Virtualpro