Reforzamiento q-learning para el control de seguimiento de PDF de sistemas estocásticos con dinámicas desconocidas
Autores: Yang, Weiqing; Zhou, Yuyang; Zhang, Yong; Ren, Yan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Reforzamiento q-learning para el control de seguimiento de PDF de sistemas estocásticos con dinámicas desconocidas
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Función de densidad de probabilidad de salida
Control de seguimiento
Aprendizaje Q-reforzado
Modelo B-spline
Perturbaciones de ruido multiplicativo
Dinámica del sistema estocástico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
El control de seguimiento de la función de densidad de probabilidad de salida presenta desafíos significativos, especialmente cuando se trata de modelos de sistemas desconocidos y perturbaciones de ruido multiplicativo. Para abordar estos desafíos, este documento presenta un nuevo algoritmo de control de seguimiento basado en el aprendizaje Q de refuerzo. Inicialmente, se emplea un modelo de B-spline para representar el sistema original, transformando así el problema de control en un problema de seguimiento de peso de estado dentro del modelo estocástico de sistema B-spline. Además, para abordar el desafío de las dinámicas del sistema estocástico desconocidas y la presencia de ruido multiplicativo, se emplea un algoritmo de aprendizaje Q de refuerzo sin modelo para resolver el problema de control. Finalmente, la efectividad del algoritmo propuesto se valida a través de ejemplos de simulación exhaustivos.
Descripción
El control de seguimiento de la función de densidad de probabilidad de salida presenta desafíos significativos, especialmente cuando se trata de modelos de sistemas desconocidos y perturbaciones de ruido multiplicativo. Para abordar estos desafíos, este documento presenta un nuevo algoritmo de control de seguimiento basado en el aprendizaje Q de refuerzo. Inicialmente, se emplea un modelo de B-spline para representar el sistema original, transformando así el problema de control en un problema de seguimiento de peso de estado dentro del modelo estocástico de sistema B-spline. Además, para abordar el desafío de las dinámicas del sistema estocástico desconocidas y la presencia de ruido multiplicativo, se emplea un algoritmo de aprendizaje Q de refuerzo sin modelo para resolver el problema de control. Finalmente, la efectividad del algoritmo propuesto se valida a través de ejemplos de simulación exhaustivos.