Aprendizaje profundo por refuerzo para la gestión intradía de múltiples embalses de energía hidroeléctrica
Autores: Castro-Freibott, Rodrigo; García-Sánchez, Álvaro; Espiga-Fernández, Francisco; González-Santander de la Cruz, Guillermo
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje profundo por refuerzo para la gestión intradía de múltiples embalses de energía hidroeléctrica
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Estudio
Aprendizaje por refuerzo
Embalses de energía hidroeléctrica
Operaciones intradiarias
Optimización económica
Agentes de RL
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Este estudio investiga la aplicación del Aprendizaje por Refuerzo (RL) para optimizar las operaciones intradiarias de embalses de energía hidroeléctrica. A diferencia de enfoques anteriores que se centran en la planificación a largo plazo con resoluciones temporales gruesas y espacios de estados-acciones discretizados, proponemos un marco de RL adaptado al problema de Optimización Económica Intradiaria de Embalses de Energía Hidroeléctrica. Este marco gestiona espacios de estados-acciones continuos teniendo en cuenta dinámicas temporales detalladas, incluidos los retrasos de la presa a la turbina, las restricciones de movimiento de compuertas y las operaciones de grupos de energía. Nuestra metodología evalúa tres formulaciones distintas de espacio de acciones (continuo, discreto y ajustes) implementadas utilizando algoritmos modernos de RL (A2C, PPO y SAC). Los comparamos con una línea base codiciosa y soluciones de Programación Lineal Entera Mixta (MILP). Experimentos con datos del mundo real de un sistema de dos embalses y un sistema simulado de seis embalses demuestran que si bien MILP logra un rendimiento superior en el sistema más pequeño, su rendimiento degrada significativamente al escalarlo a seis embalses. En contraste, los agentes de RL, en particular aquellos que utilizan espacios de acciones discretos y entrenados con PPO, mantienen un rendimiento consistente en ambas configuraciones, logrando mejoras considerables con menos de un segundo de tiempo de ejecución. Estos resultados sugieren que el RL ofrece una alternativa escalable a los métodos de optimización tradicionales para operaciones de energía hidroeléctrica, especialmente en escenarios que requieren toma de decisiones en tiempo real o que involucran sistemas más grandes.
Descripción
Este estudio investiga la aplicación del Aprendizaje por Refuerzo (RL) para optimizar las operaciones intradiarias de embalses de energía hidroeléctrica. A diferencia de enfoques anteriores que se centran en la planificación a largo plazo con resoluciones temporales gruesas y espacios de estados-acciones discretizados, proponemos un marco de RL adaptado al problema de Optimización Económica Intradiaria de Embalses de Energía Hidroeléctrica. Este marco gestiona espacios de estados-acciones continuos teniendo en cuenta dinámicas temporales detalladas, incluidos los retrasos de la presa a la turbina, las restricciones de movimiento de compuertas y las operaciones de grupos de energía. Nuestra metodología evalúa tres formulaciones distintas de espacio de acciones (continuo, discreto y ajustes) implementadas utilizando algoritmos modernos de RL (A2C, PPO y SAC). Los comparamos con una línea base codiciosa y soluciones de Programación Lineal Entera Mixta (MILP). Experimentos con datos del mundo real de un sistema de dos embalses y un sistema simulado de seis embalses demuestran que si bien MILP logra un rendimiento superior en el sistema más pequeño, su rendimiento degrada significativamente al escalarlo a seis embalses. En contraste, los agentes de RL, en particular aquellos que utilizan espacios de acciones discretos y entrenados con PPO, mantienen un rendimiento consistente en ambas configuraciones, logrando mejoras considerables con menos de un segundo de tiempo de ejecución. Estos resultados sugieren que el RL ofrece una alternativa escalable a los métodos de optimización tradicionales para operaciones de energía hidroeléctrica, especialmente en escenarios que requieren toma de decisiones en tiempo real o que involucran sistemas más grandes.