Uso de Fuentes de Datos Diversas para Imputar Datos Faltantes de Calidad del Aire Recogidos en un Entorno con Recursos Limitados
Autores: Kebalepile, Moses Mogakolodi; Dzikiti, Loveness Nyaradzo; Voyi, Kuku
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Uso de Fuentes de Datos Diversas para Imputar Datos Faltantes de Calidad del Aire Recogidos en un Entorno con Recursos Limitados
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Astronomía
Palabras clave
Sostenible
Estaciones de monitoreo de calidad del aire
Imputación de datos
Contaminantes
Algoritmo MICE
Método CART
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 8
Citaciones: Sin citaciones
La operación sostenible de las estaciones de monitoreo de la calidad del aire en los países en desarrollo no siempre es posible. Las fallas intermitentes y los desgloses en las estaciones de monitoreo de la calidad del aire a menudo afectan la medición continua de datos según lo requerido. Estas fallas y desgloses resultan en datos faltantes. Este estudio tuvo como objetivo imputar NO, SO, O y PM 10 para producir conjuntos de datos completos de exposiciones promedio diarias desde 2010 hasta 2017. Se construyeron modelos para (a) un contaminante individual en una estación de monitoreo, (b) un modelo combinado para el mismo contaminante de diferentes estaciones, y (c) un conjunto de datos con todos los contaminantes de todas las estaciones de monitoreo. Este estudio buscó evaluar la eficacia del algoritmo de Imputación Múltiple por Ecuaciones Encadenadas (MICE) en la imputación exitosa de datos de calidad del aire que faltan al azar. La aplicación del análisis de árboles de clasificación y regresión (CART) utilizando el paquete MICE en el lenguaje de programación estadística R se comparó con el método de emparejamiento de medias predictivas (PMM). El método CART tuvo un mejor desempeño, con las estadísticas R cuadrado agrupadas de los datos imputados que oscilaban entre 0.3 y 0.7, en comparación con un rango de 0.02 a 0.25 para PMM. El algoritmo MICE resolvió con éxito la incompletud de los datos. Se concluyó que el método CART produjo datos más confiables que el método PMM. Sin embargo, en este estudio, los valores R agrupados fueron precisos para NO, pero no tanto para otros contaminantes.
Descripción
La operación sostenible de las estaciones de monitoreo de la calidad del aire en los países en desarrollo no siempre es posible. Las fallas intermitentes y los desgloses en las estaciones de monitoreo de la calidad del aire a menudo afectan la medición continua de datos según lo requerido. Estas fallas y desgloses resultan en datos faltantes. Este estudio tuvo como objetivo imputar NO, SO, O y PM 10 para producir conjuntos de datos completos de exposiciones promedio diarias desde 2010 hasta 2017. Se construyeron modelos para (a) un contaminante individual en una estación de monitoreo, (b) un modelo combinado para el mismo contaminante de diferentes estaciones, y (c) un conjunto de datos con todos los contaminantes de todas las estaciones de monitoreo. Este estudio buscó evaluar la eficacia del algoritmo de Imputación Múltiple por Ecuaciones Encadenadas (MICE) en la imputación exitosa de datos de calidad del aire que faltan al azar. La aplicación del análisis de árboles de clasificación y regresión (CART) utilizando el paquete MICE en el lenguaje de programación estadística R se comparó con el método de emparejamiento de medias predictivas (PMM). El método CART tuvo un mejor desempeño, con las estadísticas R cuadrado agrupadas de los datos imputados que oscilaban entre 0.3 y 0.7, en comparación con un rango de 0.02 a 0.25 para PMM. El algoritmo MICE resolvió con éxito la incompletud de los datos. Se concluyó que el método CART produjo datos más confiables que el método PMM. Sin embargo, en este estudio, los valores R agrupados fueron precisos para NO, pero no tanto para otros contaminantes.