Modelos de aprendizaje automático predictivos y explicables para mortalidad endocrina, nutricional y metabólica en Italia utilizando datos de contaminación geolocalizados
Autores: Romano, Donato; Magarelli, Michele; Novielli, Pierfrancesco; Diacono, Domenico; Di Bitonto, Pierpaolo; Amoroso, Nicola; Monaco, Alfonso; Bellotti, Roberto; Tangaro, Sabina
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Modelos de aprendizaje automático predictivos y explicables para mortalidad endocrina, nutricional y metabólica en Italia utilizando datos de contaminación geolocalizados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Modelos de regresión
Pronóstico de mortalidad
Contaminación del aire
índices socioeconómicos
Análisis SHAP
Técnicas de aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Este estudio investigó el rendimiento predictivo de tres modelos de regresión - Gradient Boosting (GB), Random Forest (RF) y XGBoost - en la predicción de la mortalidad debido a enfermedades endocrinas, nutricionales y metabólicas en las provincias italianas. Utilizando un conjunto de datos que abarca métricas de contaminación del aire e índices socioeconómicos, los modelos fueron entrenados y probados para evaluar su precisión y robustez. El rendimiento se evaluó utilizando métricas como el coeficiente de determinación (), el error absoluto medio (MAE) y el error cuadrático medio (RMSE), revelando que GB superó tanto a RF como a XGB, ofreciendo una precisión predictiva superior y una estabilidad del modelo ( = 0.55, MAE = 0.17 y RMSE = 0.05). Para interpretar aún más los resultados, se aplicó un análisis SHAP (SHapley Additive exPlanations) al modelo de mejor rendimiento para identificar las características más influyentes que impulsan las predicciones de mortalidad. El análisis destacó los roles críticos de contaminantes específicos, incluido el benceno, y factores socioeconómicos como la calidad de vida y la instrucción, en la influencia de las tasas de mortalidad. Estos hallazgos subrayan la interacción entre los determinantes ambientales y socioeconómicos en los resultados de salud y proporcionan conocimientos prácticos para los responsables políticos que buscan reducir las disparidades de salud y mitigar los factores de riesgo. Al combinar técnicas avanzadas de aprendizaje automático con herramientas de explicabilidad, esta investigación demuestra el potencial de los enfoques basados en datos para informar estrategias de salud pública y promover intervenciones dirigidas en el contexto de determinantes de salud ambientales y sociales complejos.
Descripción
Este estudio investigó el rendimiento predictivo de tres modelos de regresión - Gradient Boosting (GB), Random Forest (RF) y XGBoost - en la predicción de la mortalidad debido a enfermedades endocrinas, nutricionales y metabólicas en las provincias italianas. Utilizando un conjunto de datos que abarca métricas de contaminación del aire e índices socioeconómicos, los modelos fueron entrenados y probados para evaluar su precisión y robustez. El rendimiento se evaluó utilizando métricas como el coeficiente de determinación (), el error absoluto medio (MAE) y el error cuadrático medio (RMSE), revelando que GB superó tanto a RF como a XGB, ofreciendo una precisión predictiva superior y una estabilidad del modelo ( = 0.55, MAE = 0.17 y RMSE = 0.05). Para interpretar aún más los resultados, se aplicó un análisis SHAP (SHapley Additive exPlanations) al modelo de mejor rendimiento para identificar las características más influyentes que impulsan las predicciones de mortalidad. El análisis destacó los roles críticos de contaminantes específicos, incluido el benceno, y factores socioeconómicos como la calidad de vida y la instrucción, en la influencia de las tasas de mortalidad. Estos hallazgos subrayan la interacción entre los determinantes ambientales y socioeconómicos en los resultados de salud y proporcionan conocimientos prácticos para los responsables políticos que buscan reducir las disparidades de salud y mitigar los factores de riesgo. Al combinar técnicas avanzadas de aprendizaje automático con herramientas de explicabilidad, esta investigación demuestra el potencial de los enfoques basados en datos para informar estrategias de salud pública y promover intervenciones dirigidas en el contexto de determinantes de salud ambientales y sociales complejos.