logo móvil
Contáctanos

Aprendizaje profundo por refuerzo para la gestión intradía de múltiples embalses de energía hidroeléctrica

Autores: Castro-Freibott, Rodrigo; García-Sánchez, Álvaro; Espiga-Fernández, Francisco; González-Santander de la Cruz, Guillermo

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Aprendizaje profundo por refuerzo para la gestión intradía de múltiples embalses de energía hidroeléctrica


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Estudio
Aprendizaje por refuerzo
Embalses de energía hidroeléctrica
Operaciones intradiarias
Optimización económica
Agentes de RL

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones


Descripción
Este estudio investiga la aplicación del Aprendizaje por Refuerzo (RL) para optimizar las operaciones intradiarias de embalses de energía hidroeléctrica. A diferencia de enfoques anteriores que se centran en la planificación a largo plazo con resoluciones temporales gruesas y espacios de estados-acciones discretizados, proponemos un marco de RL adaptado al problema de Optimización Económica Intradiaria de Embalses de Energía Hidroeléctrica. Este marco gestiona espacios de estados-acciones continuos teniendo en cuenta dinámicas temporales detalladas, incluidos los retrasos de la presa a la turbina, las restricciones de movimiento de compuertas y las operaciones de grupos de energía. Nuestra metodología evalúa tres formulaciones distintas de espacio de acciones (continuo, discreto y ajustes) implementadas utilizando algoritmos modernos de RL (A2C, PPO y SAC). Los comparamos con una línea base codiciosa y soluciones de Programación Lineal Entera Mixta (MILP). Experimentos con datos del mundo real de un sistema de dos embalses y un sistema simulado de seis embalses demuestran que si bien MILP logra un rendimiento superior en el sistema más pequeño, su rendimiento degrada significativamente al escalarlo a seis embalses. En contraste, los agentes de RL, en particular aquellos que utilizan espacios de acciones discretos y entrenados con PPO, mantienen un rendimiento consistente en ambas configuraciones, logrando mejoras considerables con menos de un segundo de tiempo de ejecución. Estos resultados sugieren que el RL ofrece una alternativa escalable a los métodos de optimización tradicionales para operaciones de energía hidroeléctrica, especialmente en escenarios que requieren toma de decisiones en tiempo real o que involucran sistemas más grandes.

Otros recursos que podrían interesarte

Temas Virtualpro