Atiende la Gran Brecha: Nuevo Algoritmo que Utiliza Descomposición Estacional y Regresión Elastic Net para Imputar Grandes Intervalos de Datos Faltantes en Datos de Calidad del Aire
Autores: Wijesekara, Lakmini; Liyanage, Liwan
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Atiende la Gran Brecha: Nuevo Algoritmo que Utiliza Descomposición Estacional y Regresión Elastic Net para Imputar Grandes Intervalos de Datos Faltantes en Datos de Calidad del Aire
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Astronomía
Palabras clave
Conjuntos de datos de calidad del aire
Valores faltantes
Preprocesamiento de datos
Datos de series temporales
Grandes lagunas
Imputación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 10
Citaciones: Sin citaciones
Los conjuntos de datos de calidad del aire se utilizan ampliamente en numerosos análisis. Los valores faltantes son omnipresentes en los conjuntos de datos de calidad del aire, ya que los datos se recopilan a través de sensores. La recuperación de datos faltantes es una tarea desafiante en la etapa de preprocesamiento de datos. Esta tarea se vuelve más complicada en los datos de series temporales, ya que el tiempo es una variable implícita que no se puede ignorar. Aunque los métodos existentes para tratar los datos faltantes en series temporales funcionan bien en situaciones donde el porcentaje de valores faltantes es relativamente bajo y el tamaño de la brecha es pequeño, su rendimiento es razonablemente inferior cuando se trata de brechas grandes. Este artículo presenta un nuevo algoritmo basado en la descomposición estacional y la regresión de red elástica para imputar grandes brechas de datos de series temporales cuando existen variables correlacionadas. Este método supera a varios otros enfoques univariantes existentes, a saber, el suavizado de Kalman en modelos ARIMA, el suavizado de Kalman en modelos de series temporales estructurales, la interpolación lineal y la imputación de la media en la imputación de grandes brechas. Sin embargo, esto es aplicable solo cuando existe una o más variables correlacionadas con la serie temporal con grandes brechas.
Descripción
Los conjuntos de datos de calidad del aire se utilizan ampliamente en numerosos análisis. Los valores faltantes son omnipresentes en los conjuntos de datos de calidad del aire, ya que los datos se recopilan a través de sensores. La recuperación de datos faltantes es una tarea desafiante en la etapa de preprocesamiento de datos. Esta tarea se vuelve más complicada en los datos de series temporales, ya que el tiempo es una variable implícita que no se puede ignorar. Aunque los métodos existentes para tratar los datos faltantes en series temporales funcionan bien en situaciones donde el porcentaje de valores faltantes es relativamente bajo y el tamaño de la brecha es pequeño, su rendimiento es razonablemente inferior cuando se trata de brechas grandes. Este artículo presenta un nuevo algoritmo basado en la descomposición estacional y la regresión de red elástica para imputar grandes brechas de datos de series temporales cuando existen variables correlacionadas. Este método supera a varios otros enfoques univariantes existentes, a saber, el suavizado de Kalman en modelos ARIMA, el suavizado de Kalman en modelos de series temporales estructurales, la interpolación lineal y la imputación de la media en la imputación de grandes brechas. Sin embargo, esto es aplicable solo cuando existe una o más variables correlacionadas con la serie temporal con grandes brechas.