Predicción de Cáncer de Pulmón Basada en Síntomas Usando Aprendizaje por Conjuntos con Optimización de Umbrales e Interpretabilidad
Autores: Husaini, Yousuf Al
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Predicción de Cáncer de Pulmón Basada en Síntomas Usando Aprendizaje por Conjuntos con Optimización de Umbrales e Interpretabilidad
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Cáncer de pulmón
Modelo de aprendizaje automático
Enfoque de conjunto
Síntomas
CatBoost
Evaluación de riesgos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El cáncer de pulmón puede ser descubierto en una etapa temprana para mejorar la supervivencia del paciente. Sin embargo, las herramientas de detección existentes son intensivas en recursos e inaccesibles en países de bajos recursos. Este documento presenta un modelo de aprendizaje automático que utiliza un enfoque de conjunto para predecir el cáncer de pulmón a partir de un conjunto de datos basado en encuestas de individuos según los síntomas. El método sugerido aprovecha los datos desbalanceados utilizando aprendizaje ponderado por clases y una división estratificada de entrenamiento-validación-prueba para prevenir la fuga de datos y optimizando el umbral de decisión en el conjunto de validación para maximizar la sensibilidad clínica. Se probaron varios modelos de conjunto, y CatBoost logró el mejor rendimiento de validación. El modelo optimizado alcanzó una precisión y un ROC-AUC de 95.16 y 93.75, respectivamente, en el conjunto de prueba reservado, con un recuerdo perfecto y sin falsos negativos. Análisis extensos, incluyendo calibración, análisis de subgrupos, análisis de rendimiento, análisis de importancia de características y evidencia de estratificación de riesgos, demuestran la solidez y legibilidad del marco propuesto. Los hallazgos anteriores sugieren que los modelos de aprendizaje en conjunto basados en síntomas pueden ser útiles como medidas complementarias para la evaluación inicial del riesgo y el triaje clínico del cáncer de pulmón.
Descripción
El cáncer de pulmón puede ser descubierto en una etapa temprana para mejorar la supervivencia del paciente. Sin embargo, las herramientas de detección existentes son intensivas en recursos e inaccesibles en países de bajos recursos. Este documento presenta un modelo de aprendizaje automático que utiliza un enfoque de conjunto para predecir el cáncer de pulmón a partir de un conjunto de datos basado en encuestas de individuos según los síntomas. El método sugerido aprovecha los datos desbalanceados utilizando aprendizaje ponderado por clases y una división estratificada de entrenamiento-validación-prueba para prevenir la fuga de datos y optimizando el umbral de decisión en el conjunto de validación para maximizar la sensibilidad clínica. Se probaron varios modelos de conjunto, y CatBoost logró el mejor rendimiento de validación. El modelo optimizado alcanzó una precisión y un ROC-AUC de 95.16 y 93.75, respectivamente, en el conjunto de prueba reservado, con un recuerdo perfecto y sin falsos negativos. Análisis extensos, incluyendo calibración, análisis de subgrupos, análisis de rendimiento, análisis de importancia de características y evidencia de estratificación de riesgos, demuestran la solidez y legibilidad del marco propuesto. Los hallazgos anteriores sugieren que los modelos de aprendizaje en conjunto basados en síntomas pueden ser útiles como medidas complementarias para la evaluación inicial del riesgo y el triaje clínico del cáncer de pulmón.