Un enfoque de Aprendizaje por Refuerzo basado en la Optimización de Políticas Relativas de Grupo para la Distribución Económica en Redes Eléctricas Inteligentes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un enfoque de Aprendizaje por Refuerzo basado en la Optimización de Políticas Relativas de Grupo para la Distribución Económica en Redes Eléctricas Inteligentes

Autores: Rizki, Adil; Touil, Achraf; Echchatbi, Abdelwahed; Oucheikh, Rachid

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Un enfoque de Aprendizaje por Refuerzo basado en la Optimización de Políticas Relativas de Grupo para la Distribución Económica en Redes Eléctricas Inteligentes

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Problema de despacho económico

Operaciones del sistema eléctrico

Técnicas de optimización

Métodos metaheurísticos

Optimización de políticas relativas en grupo

Marco de aprendizaje por refuerzo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 20

Citaciones: Sin citaciones

El Problema de Despacho Económico (EDP) juega un papel crítico en las operaciones del sistema eléctrico al intentar asignar la generación de energía a través de múltiples unidades al costo mínimo, mientras se satisfacen complejas restricciones operativas. Las técnicas de optimización tradicionales luchan con las no convexidades introducidas por factores como los efectos de punto de válvula, las zonas de operación prohibidas y los requisitos de reserva giratoria. Si bien los métodos metaheurísticos han mostrado promesas, a menudo sufren de problemas de convergencia y limitaciones en el manejo de restricciones. En este estudio, introducimos una nueva aplicación de la Optimización de Políticas Relativas de Grupo (GRPO), un marco de aprendizaje por refuerzo que extiende la Optimización de Políticas Proximales al integrar el aprendizaje basado en grupos y evaluaciones de rendimiento relativas. El enfoque GRPO propuesto incorpora una inicialización inteligente, exploración adaptativa y actualizaciones guiadas por élite adaptadas a la estructura del EDP. Nuestro método produce consistentemente soluciones de alta calidad y viables con una convergencia más rápida en comparación con las metaheurísticas y métodos basados en aprendizaje de última generación. Por ejemplo, en el caso del sistema de 15 unidades, GRPO logró el mejor costo de 32,421.67 USD/h con plena satisfacción de las restricciones en solo 4.24 s, superando muchas soluciones anteriores. El algoritmo también demuestra una excelente escalabilidad, generalizabilidad y estabilidad en sistemas de mayor escala sin requerir reajuste de parámetros. Estos resultados destacan el potencial de GRPO como una herramienta robusta y eficiente para la programación de energía en tiempo real en entornos de redes eléctricas inteligentes.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro