Imputación de datos climáticos de alta frecuencia multidimensional para predecir las temperaturas del aire y de la superficie en Kuwait
Autores: Khan, Shehroz S.; Al-Hajj, Rami
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Imputación de datos climáticos de alta frecuencia multidimensional para predecir las temperaturas del aire y de la superficie en Kuwait
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Valores
Datos climáticos
Datos faltantes
Técnicas de imputación
Alta frecuencia
LSTM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los valores faltantes pueden surgir en la recolección de datos climáticos debido a fallos en los sensores, errores de transmisión, problemas de calibración de dispositivos y cuestiones operativas. Este problema puede ser más catastrófico en el caso de conjuntos de datos climáticos multidimensionales y de alta frecuencia, donde algunas o todas las lecturas climáticas podrían faltar en múltiples marcas de tiempo. Estos datos faltantes en la modelización climática de alta frecuencia podrían llevar a modelos de predicción inexactos, lo que a su vez afecta las evaluaciones generales, la planificación y las medidas y políticas relacionadas con el clima. En este documento, evaluamos el rendimiento de tres técnicas de imputación basadas en la media, el vecino más cercano, la interpolación basada en el tiempo y un nuevo enfoque de imputación climática temporal cruzada utilizando un bosque aleatorio, un modelo de memoria a largo y corto plazo (LSTM) y métodos de regresión basados en transformadores con incrustaciones contextuales. Discutimos nuestros hallazgos sobre cuatro años de datos climáticos multidimensionales, de alta frecuencia y de múltiples salidas recolectados en Kuwait. Utilizando un enfoque de validación cruzada de dejar un año fuera, nuestros resultados muestran que todos los métodos de imputación funcionan mejor que no imputar, siendo LSTM y la interpolación basada en el tiempo la mejor combinación. Imputar datos climáticos basados en las marcas de tiempo de años anteriores no dio buenos resultados, destacando la variabilidad de los datos climáticos a lo largo de los años.
Descripción
Los valores faltantes pueden surgir en la recolección de datos climáticos debido a fallos en los sensores, errores de transmisión, problemas de calibración de dispositivos y cuestiones operativas. Este problema puede ser más catastrófico en el caso de conjuntos de datos climáticos multidimensionales y de alta frecuencia, donde algunas o todas las lecturas climáticas podrían faltar en múltiples marcas de tiempo. Estos datos faltantes en la modelización climática de alta frecuencia podrían llevar a modelos de predicción inexactos, lo que a su vez afecta las evaluaciones generales, la planificación y las medidas y políticas relacionadas con el clima. En este documento, evaluamos el rendimiento de tres técnicas de imputación basadas en la media, el vecino más cercano, la interpolación basada en el tiempo y un nuevo enfoque de imputación climática temporal cruzada utilizando un bosque aleatorio, un modelo de memoria a largo y corto plazo (LSTM) y métodos de regresión basados en transformadores con incrustaciones contextuales. Discutimos nuestros hallazgos sobre cuatro años de datos climáticos multidimensionales, de alta frecuencia y de múltiples salidas recolectados en Kuwait. Utilizando un enfoque de validación cruzada de dejar un año fuera, nuestros resultados muestran que todos los métodos de imputación funcionan mejor que no imputar, siendo LSTM y la interpolación basada en el tiempo la mejor combinación. Imputar datos climáticos basados en las marcas de tiempo de años anteriores no dio buenos resultados, destacando la variabilidad de los datos climáticos a lo largo de los años.