Detección de fiebre del dengue utilizando inteligencia de enjambre y clasificador XGBoost: un enfoque interpretable con SHAP y DiCE
Autores: Sarker, Proshenjit; Tiang, Jun-Jiat; Nahid, Abdullah-Al
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Detección de fiebre del dengue utilizando inteligencia de enjambre y clasificador XGBoost: un enfoque interpretable con SHAP y DiCE
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Fiebre del dengue
Selección de características
Ajuste de hiperparámetros
Clasificador de Extreme Gradient Boost
Recuento de glóbulos blancos
Recuento de plaquetas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La fiebre del dengue es una enfermedad viral transmitida por mosquitos que afecta anualmente a entre 100 y 400 millones de personas en todo el mundo. La detección temprana del dengue permite una planificación de tratamiento más fácil y ayuda a reducir las tasas de mortalidad. Este estudio propone tres algoritmos metaheurísticos basados en enjambres, Optimización del Lobo Dorado, Optimizador de Zorros y Optimización de Leones Marinos, para la selección de características y ajuste de hiperparámetros, y un clasificador de Aumento de Gradiente Extremo para predecir la fiebre del dengue utilizando el conjunto de datos Clínico Predictivo de Dengue. Se han propuesto varios modelos existentes para la clasificación de la fiebre del dengue, algunos de los cuales logran un alto rendimiento predictivo. Sin embargo, la mayoría de estos estudios han pasado por alto la importancia de la reducción de características, que es crucial para construir modelos eficientes e interpretables. Además, investigaciones previas han carecido de un análisis profundo del comportamiento del modelo, particularmente en lo que respecta a las causas subyacentes de la mala clasificación. Abordando estas limitaciones, este estudio logró una precisión media de validación cruzada de 10 pliegues del 99.89%, un F-score del 99.92%, una precisión del 99.84% y un recall perfecto del 100% utilizando solo dos características: el recuento de glóbulos blancos y el recuento de plaquetas. Notablemente, FOX-XGBoost y SLO-XGBoost lograron el mismo rendimiento utilizando solo cuatro y tres características, respectivamente, demostrando la efectividad de la reducción de características sin comprometer la precisión. Entre estos, GJO-XGBoost demostró la utilización de características más eficiente mientras mantenía un rendimiento superior, enfatizando su potencial para el despliegue práctico en el diagnóstico de la fiebre del dengue. El análisis SHAP identificó el recuento de glóbulos blancos como la característica más influyente que impulsa las predicciones del modelo. Además, las explicaciones de DiCE respaldan este hallazgo al mostrar que recuentos más bajos de glóbulos blancos están asociados con casos positivos de dengue, mientras que recuentos más altos de glóbulos blancos son indicativos de individuos negativos para dengue. SHAP interpretó las razones detrás de las malas clasificaciones, mientras que DiCE proporcionó un mecanismo de corrección sugiriendo los cambios mínimos necesarios para convertir predicciones incorrectas en correctas.
Descripción
La fiebre del dengue es una enfermedad viral transmitida por mosquitos que afecta anualmente a entre 100 y 400 millones de personas en todo el mundo. La detección temprana del dengue permite una planificación de tratamiento más fácil y ayuda a reducir las tasas de mortalidad. Este estudio propone tres algoritmos metaheurísticos basados en enjambres, Optimización del Lobo Dorado, Optimizador de Zorros y Optimización de Leones Marinos, para la selección de características y ajuste de hiperparámetros, y un clasificador de Aumento de Gradiente Extremo para predecir la fiebre del dengue utilizando el conjunto de datos Clínico Predictivo de Dengue. Se han propuesto varios modelos existentes para la clasificación de la fiebre del dengue, algunos de los cuales logran un alto rendimiento predictivo. Sin embargo, la mayoría de estos estudios han pasado por alto la importancia de la reducción de características, que es crucial para construir modelos eficientes e interpretables. Además, investigaciones previas han carecido de un análisis profundo del comportamiento del modelo, particularmente en lo que respecta a las causas subyacentes de la mala clasificación. Abordando estas limitaciones, este estudio logró una precisión media de validación cruzada de 10 pliegues del 99.89%, un F-score del 99.92%, una precisión del 99.84% y un recall perfecto del 100% utilizando solo dos características: el recuento de glóbulos blancos y el recuento de plaquetas. Notablemente, FOX-XGBoost y SLO-XGBoost lograron el mismo rendimiento utilizando solo cuatro y tres características, respectivamente, demostrando la efectividad de la reducción de características sin comprometer la precisión. Entre estos, GJO-XGBoost demostró la utilización de características más eficiente mientras mantenía un rendimiento superior, enfatizando su potencial para el despliegue práctico en el diagnóstico de la fiebre del dengue. El análisis SHAP identificó el recuento de glóbulos blancos como la característica más influyente que impulsa las predicciones del modelo. Además, las explicaciones de DiCE respaldan este hallazgo al mostrar que recuentos más bajos de glóbulos blancos están asociados con casos positivos de dengue, mientras que recuentos más altos de glóbulos blancos son indicativos de individuos negativos para dengue. SHAP interpretó las razones detrás de las malas clasificaciones, mientras que DiCE proporcionó un mecanismo de corrección sugiriendo los cambios mínimos necesarios para convertir predicciones incorrectas en correctas.