Validación de Modelos de Lenguaje Grande para la Selección de Títulos y Resúmenes en Revisiones Sistemáticas de Baja Prevalencia: Un Estudio de Caso en Ciencias Ambientales

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Validación de Modelos de Lenguaje Grande para la Selección de Títulos y Resúmenes en Revisiones Sistemáticas de Baja Prevalencia: Un Estudio de Caso en Ciencias Ambientales

Autores: Nawrath, Maximilian; Merlina, Andrea; Knight, Jemmima; Welch, Sam A.; Rashidian, Mahla; Seifert-Dähnn, Isabel

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Validación de Modelos de Lenguaje Grande para la Selección de Títulos y Resúmenes en Revisiones Sistemáticas de Baja Prevalencia: Un Estudio de Caso en Ciencias Ambientales

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Cribado de literatura

Modelos de lenguaje grandes

Métricas de evaluación

Revisiones sistemáticas

Métricas de clasificación

índices de acuerdo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La selección de literatura es un importante cuello de botella en las revisiones sistemáticas, sin embargo, los Modelos de Lenguaje Grande (LLMs) pueden reducir sustancialmente las cargas de trabajo. Sin embargo, el rendimiento varía entre modelos y es sensible a las métricas de evaluación, particularmente en contextos de selección de baja prevalencia. Validamos cinco LLMs (GPT-4.1, Claude 3.5 Sonnet, Gemini 2.0 Flash, DeepSeek V3 y Mistral Large) contra un conjunto de datos estándar de oro de 500 registros (8 inclusiones; 1.6% de prevalencia) utilizando un aviso conservador de cero disparos alineado con los flujos de trabajo estándar de revisión sistemática. El rendimiento se evaluó a través de métricas de clasificación (sensibilidad, especificidad, precisión), regresión logística (GLM; penalizada por Firth donde ocurrió separación) e índices de acuerdo (Cohen"s, MCC, PABAK, AC1 de Gwet). Gemini 2.0 Flash y Mistral Large no mostraron falsos negativos (1.00) pero diferían en especificidad (0.858 frente a 0.697) y precisión (0.860 frente a 0.702). GPT-4.1 y Claude 3.5 Sonnet tuvieron un rendimiento idéntico (sensibilidad 0.875; especificidad 0.876; precisión 0.876). En contraste, DeepSeek V3 maximizó la especificidad (0.980) y la precisión (0.970) pero demostró una menor sensibilidad (0.375). Los análisis de regresión confirmaron fuertes asociaciones positivas con las decisiones humanas (OR 28.9-49.5). Los índices de acuerdo revelaron el artefacto de baja prevalencia esperado, con un Cohen"s bajo a pesar de la alta concordancia, mientras que MCC, PABAK y AC1 indicaron un acuerdo sustancialmente más fuerte. Nuestros resultados destacan un trade-off fundamental entre sensibilidad y especificidad, con conclusiones dependientes del marco de evaluación elegido. Los LLMs pueden apoyar de manera significativa la selección de títulos y resúmenes como herramientas de apoyo a la decisión, siempre que se mantenga la supervisión humana y la validación sea transparente y reproducible.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro