Un marco automatizado, agnóstico al dominio y explicable de aseguramiento de la calidad de los datos para análisis de energía y más allá
Autores: Tolnai, Balázs András; Ma, Zhipeng; Jørgensen, Bo Nørregaard; Ma, Zheng Grace
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un marco automatizado, agnóstico al dominio y explicable de aseguramiento de la calidad de los datos para análisis de energía y más allá
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Monitoreo de carga
Datos de sensores
Modelos NILM
Problemas de calidad de datos
Valores faltantes
Irregularidades en las marcas de tiempo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La monitorización de carga no intrusiva (NILM) se basa en datos de sensores de alta resolución para desagregar la energía total del edificio en componentes de carga de uso final, como HVAC, ventilación y electrodomésticos. En el corpus ADRENALIN, el manejo simple de NaN con relleno hacia adelante y sustitución por la media redujo el NMAE promedio de 0.82 a 0.76 para la línea base bayesiana, de 0.71 a 0.64 para BI-LSTM, y de 0.59 a 0.53 para el modelo de Máscara de Tiempo-Frecuencia (TFM), en nueve edificios y cuatro resoluciones temporales. Sin embargo, muchos modelos de NILM aún muestran una precisión degradada debido a problemas de calidad de datos no resueltos, especialmente valores faltantes, irregularidades en las marcas de tiempo e inconsistencias en los sensores, una limitación poco explorada en los benchmarks actuales. Este documento presenta una tubería de aseguramiento de calidad de datos completamente automatizada para conjuntos de datos de energía en series temporales. La tubería realiza un perfilado multivariado, análisis estadístico y diagnósticos basados en umbrales para calcular métricas de calidad estandarizadas, que se agregan en un puntaje de calidad del edificio (BQS) interpretable que predice el rendimiento de NILM y apoya la clasificación y selección de conjuntos de datos. La explicabilidad se proporciona mediante SHAP y un modelo de lenguaje grande ligero, que convierte los diagnósticos visuales en narrativas concisas y accionables. El estudio evalúa la mejora práctica de la calidad a través del manejo sistemático de valores faltantes, vinculando los cambios en las métricas a la reducción de errores en etapas posteriores. Utilizando sustitutos de bosque aleatorio, SHAP identifica la falta de datos y la irregularidad en las marcas de tiempo como impulsores dominantes del error en todos los modelos. Las contribuciones principales incluyen la definición y validación del BQS, un marco de puntuación y explicación interpretable para la calidad de series temporales, y una evaluación de extremo a extremo de cómo los diagnósticos de calidad afectan el rendimiento de NILM a gran escala.
Descripción
La monitorización de carga no intrusiva (NILM) se basa en datos de sensores de alta resolución para desagregar la energía total del edificio en componentes de carga de uso final, como HVAC, ventilación y electrodomésticos. En el corpus ADRENALIN, el manejo simple de NaN con relleno hacia adelante y sustitución por la media redujo el NMAE promedio de 0.82 a 0.76 para la línea base bayesiana, de 0.71 a 0.64 para BI-LSTM, y de 0.59 a 0.53 para el modelo de Máscara de Tiempo-Frecuencia (TFM), en nueve edificios y cuatro resoluciones temporales. Sin embargo, muchos modelos de NILM aún muestran una precisión degradada debido a problemas de calidad de datos no resueltos, especialmente valores faltantes, irregularidades en las marcas de tiempo e inconsistencias en los sensores, una limitación poco explorada en los benchmarks actuales. Este documento presenta una tubería de aseguramiento de calidad de datos completamente automatizada para conjuntos de datos de energía en series temporales. La tubería realiza un perfilado multivariado, análisis estadístico y diagnósticos basados en umbrales para calcular métricas de calidad estandarizadas, que se agregan en un puntaje de calidad del edificio (BQS) interpretable que predice el rendimiento de NILM y apoya la clasificación y selección de conjuntos de datos. La explicabilidad se proporciona mediante SHAP y un modelo de lenguaje grande ligero, que convierte los diagnósticos visuales en narrativas concisas y accionables. El estudio evalúa la mejora práctica de la calidad a través del manejo sistemático de valores faltantes, vinculando los cambios en las métricas a la reducción de errores en etapas posteriores. Utilizando sustitutos de bosque aleatorio, SHAP identifica la falta de datos y la irregularidad en las marcas de tiempo como impulsores dominantes del error en todos los modelos. Las contribuciones principales incluyen la definición y validación del BQS, un marco de puntuación y explicación interpretable para la calidad de series temporales, y una evaluación de extremo a extremo de cómo los diagnósticos de calidad afectan el rendimiento de NILM a gran escala.