Control Óptimo Multi-Agente para Plantas de Enfriamiento Central Usando Aprendizaje por Refuerzo y Teoría de Juegos
Autores: Qiu, Shunian; Li, Zhenhai; Pang, Zhihong; Li, Zhengwei; Tao, Yinying
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Control Óptimo Multi-Agente para Plantas de Enfriamiento Central Usando Aprendizaje por Refuerzo y Teoría de Juegos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Energía de edificios
Sistemas HVAC
Planta de enfriamiento central
Aprendizaje por refuerzo
Control óptimo
Enfoque sin modelo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 17
Citaciones: Sin citaciones
Para conservar la energía en los edificios, es importante el funcionamiento óptimo de los sistemas energéticos de un edificio, especialmente los sistemas de calefacción, ventilación y aire acondicionado (HVAC). Este estudio se centra en la optimización de la planta de enfriamiento central, que representa una gran parte del consumo de energía del sistema HVAC. Los métodos clásicos de control óptimo para plantas de enfriamiento central se basan principalmente en modelos de rendimiento del sistema, lo que requiere mucho esfuerzo y costo para establecer. Además, el inevitable error del modelo podría causar riesgos de control en el sistema aplicado. Para mitigar la dependencia del modelo en el control óptimo de HVAC, los algoritmos de aprendizaje por refuerzo (RL) han llamado la atención en el ámbito del control de HVAC debido a su característica sin modelo. Actualmente, la optimización basada en RL de las plantas de enfriamiento central enfrenta varios desafíos: (1) los métodos de control sin modelo existentes basados en RL típicamente adoptan un esquema de agente único, lo que conlleva altos costos de entrenamiento y un largo período de entrenamiento al optimizar múltiples variables controlables para sistemas a gran escala; (2) el esquema de múltiples agentes podría superar el problema anterior, pero también requiere un mecanismo de coordinación adecuado para armonizar los posibles conflictos entre todos los agentes de RL involucrados; (3) los marcos de coordinación de agentes anteriores (identificados por control distribuido o control descentralizado) están diseñados principalmente para métodos de control basados en modelos en lugar de controladores sin modelo. Para abordar los problemas anteriores, este artículo propone un enfoque de control óptimo sin modelo y de múltiples agentes para plantas de enfriamiento central. Este enfoque utiliza la teoría de juegos y el algoritmo de RL SARSA para la coordinación y el aprendizaje de los agentes, respectivamente. Se establece un modelo de sistema basado en datos utilizando datos de campo medidos de un sistema HVAC real para la simulación. Los resultados del estudio de caso de simulación sugieren que el rendimiento de ahorro de energía (tanto a corto como a largo plazo) del enfoque propuesto (más del 10% en una temporada de enfriamiento en comparación con el controlador basado en reglas) es similar al clásico algoritmo de aprendizaje por refuerzo de múltiples agentes (MARL) WoLF-PHC; además, la naturaleza del enfoque propuesto de tener pocos parámetros pendientes lo hace más factible y robusto para las prácticas de ingeniería que el algoritmo WoLF-PHC.
Descripción
Para conservar la energía en los edificios, es importante el funcionamiento óptimo de los sistemas energéticos de un edificio, especialmente los sistemas de calefacción, ventilación y aire acondicionado (HVAC). Este estudio se centra en la optimización de la planta de enfriamiento central, que representa una gran parte del consumo de energía del sistema HVAC. Los métodos clásicos de control óptimo para plantas de enfriamiento central se basan principalmente en modelos de rendimiento del sistema, lo que requiere mucho esfuerzo y costo para establecer. Además, el inevitable error del modelo podría causar riesgos de control en el sistema aplicado. Para mitigar la dependencia del modelo en el control óptimo de HVAC, los algoritmos de aprendizaje por refuerzo (RL) han llamado la atención en el ámbito del control de HVAC debido a su característica sin modelo. Actualmente, la optimización basada en RL de las plantas de enfriamiento central enfrenta varios desafíos: (1) los métodos de control sin modelo existentes basados en RL típicamente adoptan un esquema de agente único, lo que conlleva altos costos de entrenamiento y un largo período de entrenamiento al optimizar múltiples variables controlables para sistemas a gran escala; (2) el esquema de múltiples agentes podría superar el problema anterior, pero también requiere un mecanismo de coordinación adecuado para armonizar los posibles conflictos entre todos los agentes de RL involucrados; (3) los marcos de coordinación de agentes anteriores (identificados por control distribuido o control descentralizado) están diseñados principalmente para métodos de control basados en modelos en lugar de controladores sin modelo. Para abordar los problemas anteriores, este artículo propone un enfoque de control óptimo sin modelo y de múltiples agentes para plantas de enfriamiento central. Este enfoque utiliza la teoría de juegos y el algoritmo de RL SARSA para la coordinación y el aprendizaje de los agentes, respectivamente. Se establece un modelo de sistema basado en datos utilizando datos de campo medidos de un sistema HVAC real para la simulación. Los resultados del estudio de caso de simulación sugieren que el rendimiento de ahorro de energía (tanto a corto como a largo plazo) del enfoque propuesto (más del 10% en una temporada de enfriamiento en comparación con el controlador basado en reglas) es similar al clásico algoritmo de aprendizaje por refuerzo de múltiples agentes (MARL) WoLF-PHC; además, la naturaleza del enfoque propuesto de tener pocos parámetros pendientes lo hace más factible y robusto para las prácticas de ingeniería que el algoritmo WoLF-PHC.