logo móvil
Contáctanos

Un enfoque de Aprendizaje por Refuerzo basado en la Optimización de Políticas Relativas de Grupo para la Distribución Económica en Redes Eléctricas Inteligentes

Autores: Rizki, Adil; Touil, Achraf; Echchatbi, Abdelwahed; Oucheikh, Rachid

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Un enfoque de Aprendizaje por Refuerzo basado en la Optimización de Políticas Relativas de Grupo para la Distribución Económica en Redes Eléctricas Inteligentes


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Problema de despacho económico
Operaciones del sistema eléctrico
Técnicas de optimización
Métodos metaheurísticos
Optimización de políticas relativas en grupo
Marco de aprendizaje por refuerzo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 20

Citaciones: Sin citaciones


Descripción
El Problema de Despacho Económico (EDP) juega un papel crítico en las operaciones del sistema eléctrico al intentar asignar la generación de energía a través de múltiples unidades al costo mínimo, mientras se satisfacen complejas restricciones operativas. Las técnicas de optimización tradicionales luchan con las no convexidades introducidas por factores como los efectos de punto de válvula, las zonas de operación prohibidas y los requisitos de reserva giratoria. Si bien los métodos metaheurísticos han mostrado promesas, a menudo sufren de problemas de convergencia y limitaciones en el manejo de restricciones. En este estudio, introducimos una nueva aplicación de la Optimización de Políticas Relativas de Grupo (GRPO), un marco de aprendizaje por refuerzo que extiende la Optimización de Políticas Proximales al integrar el aprendizaje basado en grupos y evaluaciones de rendimiento relativas. El enfoque GRPO propuesto incorpora una inicialización inteligente, exploración adaptativa y actualizaciones guiadas por élite adaptadas a la estructura del EDP. Nuestro método produce consistentemente soluciones de alta calidad y viables con una convergencia más rápida en comparación con las metaheurísticas y métodos basados en aprendizaje de última generación. Por ejemplo, en el caso del sistema de 15 unidades, GRPO logró el mejor costo de 32,421.67 USD/h con plena satisfacción de las restricciones en solo 4.24 s, superando muchas soluciones anteriores. El algoritmo también demuestra una excelente escalabilidad, generalizabilidad y estabilidad en sistemas de mayor escala sin requerir reajuste de parámetros. Estos resultados destacan el potencial de GRPO como una herramienta robusta y eficiente para la programación de energía en tiempo real en entornos de redes eléctricas inteligentes.

Otros recursos que podrían interesarte

Temas Virtualpro