Comparación de Modelos para la Imputación de Datos Faltantes en Datos de Medición de PM-2.5
Autores: Lee, Ju-Yong; Han, Seung-Hee; Kang, Jin-Goo; Lee, Chae-Yeon; Lee, Jeong-Beom; Kim, Hyeun-Soo; Yun, Hui-Young; Choi, Dae-Ryun
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Comparación de Modelos para la Imputación de Datos Faltantes en Datos de Medición de PM-2.5
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Astronomía
Palabras clave
Monitoreo preciso
Análisis
PM-2.5
Métodos de imputación de datos faltantes
KNN
Análisis de datos ambientales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 14
Citaciones: Sin citaciones
El monitoreo y análisis precisos de PM-2.5 son críticos para mejorar la calidad del aire y formular políticas de salud pública. Sin embargo, los datos ambientales a menudo contienen valores faltantes debido a fallos en el equipo, errores en la recolección de datos o condiciones climáticas extremas, lo que puede obstaculizar un análisis y predicciones confiables. Este estudio evalúa el rendimiento de varios métodos de imputación de datos faltantes para datos de PM-2.5 en Seúl, Corea, utilizando escenarios con valores faltantes generados artificialmente durante períodos de alta y baja concentración. Los métodos comparados incluyen FFILL, KNN, MICE, SARIMAX, DNN y LSTM. Los resultados indican que KNN logró consistentemente un rendimiento estable y equilibrado a través de diferentes intervalos temporales, con un RMSE de 5.65, 9.14 y 9.71 para intervalos de 6 h, 12 h y 24 h, respectivamente. FFILL demostró un rendimiento superior para intervalos cortos (RMSE 4.76 para 6 h) pero mostró limitaciones significativas a medida que los intervalos se alargaban. SARIMAX funcionó bien en escenarios a largo plazo, con un RMSE de 9.37 para intervalos de 24 h, pero requirió una mayor complejidad computacional. Por el contrario, los modelos de aprendizaje profundo como DNN y LSTM tuvieron un rendimiento inferior, destacando la necesidad de una mayor optimización para datos de series temporales. Este estudio resalta la practicidad de KNN como el método más efectivo para abordar datos faltantes de PM-2.5 en aplicaciones de mediano a largo plazo debido a su simplicidad y eficiencia. Estos hallazgos proporcionan valiosos conocimientos sobre la selección de métodos de imputación para el análisis de datos ambientales, contribuyendo a la mejora de la confiabilidad de los datos y al desarrollo de políticas efectivas de gestión de la calidad del aire.
Descripción
El monitoreo y análisis precisos de PM-2.5 son críticos para mejorar la calidad del aire y formular políticas de salud pública. Sin embargo, los datos ambientales a menudo contienen valores faltantes debido a fallos en el equipo, errores en la recolección de datos o condiciones climáticas extremas, lo que puede obstaculizar un análisis y predicciones confiables. Este estudio evalúa el rendimiento de varios métodos de imputación de datos faltantes para datos de PM-2.5 en Seúl, Corea, utilizando escenarios con valores faltantes generados artificialmente durante períodos de alta y baja concentración. Los métodos comparados incluyen FFILL, KNN, MICE, SARIMAX, DNN y LSTM. Los resultados indican que KNN logró consistentemente un rendimiento estable y equilibrado a través de diferentes intervalos temporales, con un RMSE de 5.65, 9.14 y 9.71 para intervalos de 6 h, 12 h y 24 h, respectivamente. FFILL demostró un rendimiento superior para intervalos cortos (RMSE 4.76 para 6 h) pero mostró limitaciones significativas a medida que los intervalos se alargaban. SARIMAX funcionó bien en escenarios a largo plazo, con un RMSE de 9.37 para intervalos de 24 h, pero requirió una mayor complejidad computacional. Por el contrario, los modelos de aprendizaje profundo como DNN y LSTM tuvieron un rendimiento inferior, destacando la necesidad de una mayor optimización para datos de series temporales. Este estudio resalta la practicidad de KNN como el método más efectivo para abordar datos faltantes de PM-2.5 en aplicaciones de mediano a largo plazo debido a su simplicidad y eficiencia. Estos hallazgos proporcionan valiosos conocimientos sobre la selección de métodos de imputación para el análisis de datos ambientales, contribuyendo a la mejora de la confiabilidad de los datos y al desarrollo de políticas efectivas de gestión de la calidad del aire.