Optimización de Secuencias de Control Basada en Aprendizaje por Refuerzo para Reactores Avanzados
Autores: Nguyen, Khang H. N.; Rivas, Andy; Delipei, Gregory Kyriakos; Hou, Jason
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Optimización de Secuencias de Control Basada en Aprendizaje por Refuerzo para Reactores Avanzados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Nuclear
Palabras clave
Desarrollo
Métodos basados en datos
Ingeniería nuclear
Aprendizaje por refuerzo
Seguridad
Secuencias de control
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
La última década ha visto el desarrollo y la aplicación de métodos basados en datos en la investigación de ingeniería nuclear, con el objetivo de mejorar la seguridad y la fiabilidad de la energía nuclear. Este trabajo se centra en desarrollar un marco de optimización de secuencias de control basado en aprendizaje por refuerzo para sistemas nucleares avanzados, que no solo busca mejorar las operaciones flexibles, promoviendo la economía de la tecnología nuclear avanzada, sino que también prioriza la seguridad durante la operación normal. En su núcleo, el marco permite que la secuencia de acciones operativas sea aprendida y optimizada por un agente para facilitar transiciones suaves entre los modos de operación (es decir, seguimiento de carga), mientras se asegura que todos los parámetros del sistema significativos para la seguridad se mantengan dentro de sus respectivos límites. Para generar respuestas dinámicas del sistema, facilitar el desarrollo de estrategias de control y demostrar la efectividad del marco, se utilizó un entorno de simulación de un reactor de lecho de guijarros refrigerado por gas a alta temperatura. Se adoptó el algoritmo de actor-crítico suave para entrenar a un agente de aprendizaje por refuerzo, que puede generar secuencias de control para maniobrar la salida de potencia de la planta en el rango entre el 100% y el 50% de la potencia nominal a través de un entrenamiento suficiente. Se demostró en la validación del rendimiento que el agente generó con éxito acciones de control que mantuvieron la salida eléctrica dentro de una tolerancia estricta del 0.5% de la demanda, mientras se satisfacían todas las restricciones de seguridad. Durante la transición de modo, el agente puede mantener la temperatura de salida del reactor dentro de gradosC y la presión de vapor dentro de 0.1 MPa de sus puntos de ajuste, respectivamente, ajustando dinámicamente las posiciones de las barras de control, las aperturas de las válvulas de control y las velocidades de las bombas. Los resultados demuestran la efectividad del marco de optimización y la viabilidad del aprendizaje por refuerzo en el diseño de estrategias de control para sistemas de reactores avanzados.
Descripción
La última década ha visto el desarrollo y la aplicación de métodos basados en datos en la investigación de ingeniería nuclear, con el objetivo de mejorar la seguridad y la fiabilidad de la energía nuclear. Este trabajo se centra en desarrollar un marco de optimización de secuencias de control basado en aprendizaje por refuerzo para sistemas nucleares avanzados, que no solo busca mejorar las operaciones flexibles, promoviendo la economía de la tecnología nuclear avanzada, sino que también prioriza la seguridad durante la operación normal. En su núcleo, el marco permite que la secuencia de acciones operativas sea aprendida y optimizada por un agente para facilitar transiciones suaves entre los modos de operación (es decir, seguimiento de carga), mientras se asegura que todos los parámetros del sistema significativos para la seguridad se mantengan dentro de sus respectivos límites. Para generar respuestas dinámicas del sistema, facilitar el desarrollo de estrategias de control y demostrar la efectividad del marco, se utilizó un entorno de simulación de un reactor de lecho de guijarros refrigerado por gas a alta temperatura. Se adoptó el algoritmo de actor-crítico suave para entrenar a un agente de aprendizaje por refuerzo, que puede generar secuencias de control para maniobrar la salida de potencia de la planta en el rango entre el 100% y el 50% de la potencia nominal a través de un entrenamiento suficiente. Se demostró en la validación del rendimiento que el agente generó con éxito acciones de control que mantuvieron la salida eléctrica dentro de una tolerancia estricta del 0.5% de la demanda, mientras se satisfacían todas las restricciones de seguridad. Durante la transición de modo, el agente puede mantener la temperatura de salida del reactor dentro de gradosC y la presión de vapor dentro de 0.1 MPa de sus puntos de ajuste, respectivamente, ajustando dinámicamente las posiciones de las barras de control, las aperturas de las válvulas de control y las velocidades de las bombas. Los resultados demuestran la efectividad del marco de optimización y la viabilidad del aprendizaje por refuerzo en el diseño de estrategias de control para sistemas de reactores avanzados.