Una Nueva Aplicación del Integral de Choquet para la Fusión de Múltiples Modelos en la Predicción de PM Urbana
Autores: Bouzghiba, Houria; Ajdour, Amine; Omar, Najiya; Mendyl, Abderrahmane; Géczi, Gábor
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Una Nueva Aplicación del Integral de Choquet para la Fusión de Múltiples Modelos en la Predicción de PM Urbana
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Astronomía
Palabras clave
Contaminación del aire
Pronóstico
Ingeniería de características
Fusión de conjuntos
Integral de Choquet
Aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 9
Citaciones: Sin citaciones
La previsión de la contaminación del aire sigue siendo un desafío crítico para la gestión de la salud pública urbana, con enfoques tradicionales que luchan por equilibrar la precisión y la interpretabilidad. Este estudio presenta un nuevo marco de previsión de PM que combina la ingeniería de características informadas por la física con la fusión de conjuntos interpretables utilizando el integral de Choquet, la primera aplicación de este operador de agregación no lineal para la previsión de la calidad del aire. Utilizando datos horarios de 11 estaciones de monitoreo en Budapest (2021-2023), desarrollamos cuatro conjuntos de características especializadas que capturan distintos procesos atmosféricos: dinámicas a corto plazo, patrones a largo plazo, impulsores meteorológicos y detección de anomalías. Evaluamos modelos de aprendizaje automático que incluyen variantes de Random Forest (RF), Gradient Boosting (GBR), Regresión de Vectores de Soporte (SVR), K-Vecinos Más Cercanos (KNN) y arquitecturas de Memoria a Largo y Corto Plazo (LSTM) a través de seis regímenes de contaminación identificados. Los resultados revelaron la importancia crítica de la ingeniería de características sobre la complejidad arquitectónica. Mientras que los modelos sofisticados fallaron cuando se entrenaron con datos en bruto, el modelo KNN con características de anomalía de 5 dimensiones logró un rendimiento excepcional, representando una mejora del 86.7% sobre los modelos de entrada meteorológica directa. La modelización específica del régimen demostró ser esencial, con GBR-Regime superando a GBR-Stable por un tamaño de efecto notable. Para la fusión de conjuntos, comparamos el nuevo enfoque del integral de Choquet con métodos convencionales (media, mediana, Promedio de Modelos Bayesianos, apilamiento). El integral de Choquet logró un rendimiento casi equivalente al apilamiento de última generación mientras proporcionaba una interpretabilidad matemática completa a través de coeficientes de interacción. El análisis reveló interacciones predominantemente redundantes entre modelos, demostrando que la fusión sofisticada debe prevenir la sobrecontabilización de información en lugar de simplemente combinar predicciones. Los patrones de interacción específicos de la estación mostraron una explotación selectiva de sinergias en ubicaciones urbanas complejas mientras mantenían la gestión de redundancias en sitios más simples. Este trabajo establece que combinar la ingeniería de características informadas por el dominio con la agregación interpretable del integral de Choquet puede igualar el rendimiento de conjuntos de cajas negras mientras se mantiene la transparencia esencial para el despliegue operativo y el cumplimiento normativo en los sistemas de gestión de la calidad del aire.
Descripción
La previsión de la contaminación del aire sigue siendo un desafío crítico para la gestión de la salud pública urbana, con enfoques tradicionales que luchan por equilibrar la precisión y la interpretabilidad. Este estudio presenta un nuevo marco de previsión de PM que combina la ingeniería de características informadas por la física con la fusión de conjuntos interpretables utilizando el integral de Choquet, la primera aplicación de este operador de agregación no lineal para la previsión de la calidad del aire. Utilizando datos horarios de 11 estaciones de monitoreo en Budapest (2021-2023), desarrollamos cuatro conjuntos de características especializadas que capturan distintos procesos atmosféricos: dinámicas a corto plazo, patrones a largo plazo, impulsores meteorológicos y detección de anomalías. Evaluamos modelos de aprendizaje automático que incluyen variantes de Random Forest (RF), Gradient Boosting (GBR), Regresión de Vectores de Soporte (SVR), K-Vecinos Más Cercanos (KNN) y arquitecturas de Memoria a Largo y Corto Plazo (LSTM) a través de seis regímenes de contaminación identificados. Los resultados revelaron la importancia crítica de la ingeniería de características sobre la complejidad arquitectónica. Mientras que los modelos sofisticados fallaron cuando se entrenaron con datos en bruto, el modelo KNN con características de anomalía de 5 dimensiones logró un rendimiento excepcional, representando una mejora del 86.7% sobre los modelos de entrada meteorológica directa. La modelización específica del régimen demostró ser esencial, con GBR-Regime superando a GBR-Stable por un tamaño de efecto notable. Para la fusión de conjuntos, comparamos el nuevo enfoque del integral de Choquet con métodos convencionales (media, mediana, Promedio de Modelos Bayesianos, apilamiento). El integral de Choquet logró un rendimiento casi equivalente al apilamiento de última generación mientras proporcionaba una interpretabilidad matemática completa a través de coeficientes de interacción. El análisis reveló interacciones predominantemente redundantes entre modelos, demostrando que la fusión sofisticada debe prevenir la sobrecontabilización de información en lugar de simplemente combinar predicciones. Los patrones de interacción específicos de la estación mostraron una explotación selectiva de sinergias en ubicaciones urbanas complejas mientras mantenían la gestión de redundancias en sitios más simples. Este trabajo establece que combinar la ingeniería de características informadas por el dominio con la agregación interpretable del integral de Choquet puede igualar el rendimiento de conjuntos de cajas negras mientras se mantiene la transparencia esencial para el despliegue operativo y el cumplimiento normativo en los sistemas de gestión de la calidad del aire.