Control cuadrático de seguimiento de sistemas estocásticos lineales con dinámicas desconocidas utilizando el método de aprendizaje Q promedio fuera de política
Autores: Hao, Longyan; Wang, Chaoli; Shi, Yibo
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Control cuadrático de seguimiento de sistemas estocásticos lineales con dinámicas desconocidas utilizando el método de aprendizaje Q promedio fuera de política
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Control de seguimiento óptimo
Sistemas lineales estocásticos en tiempo discreto basados en datos
Algoritmo Q-learning fuera de política
Perturbaciones aleatorias
Aprendizaje por refuerzo
Seguimiento cuadrático lineal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Este artículo investiga el problema óptimo de control de seguimiento para sistemas lineales estocásticos discretos basados en datos. Se propone un algoritmo de aprendizaje Q promedio fuera de política para resolver el problema de control óptimo con perturbaciones aleatorias. En comparación con el algoritmo existente de aprendizaje por refuerzo (RL) fuera de política, el algoritmo propuesto de aprendizaje Q promedio fuera de política evita la suposición de un control de estabilidad inicial. Primero, se utiliza una estrategia de ubicación de polos para diseñar un control estable inicial para sistemas con dinámicas desconocidas. En segundo lugar, el control estable inicial se utiliza para diseñar un algoritmo de aprendizaje Q promedio fuera de política basado en datos. Luego, este algoritmo se utiliza para resolver el problema de seguimiento cuadrático lineal estocástico (LQT), y se proporciona una prueba de convergencia del algoritmo. Finalmente, ejemplos numéricos muestran que este algoritmo supera a otros algoritmos en una simulación.
Descripción
Este artículo investiga el problema óptimo de control de seguimiento para sistemas lineales estocásticos discretos basados en datos. Se propone un algoritmo de aprendizaje Q promedio fuera de política para resolver el problema de control óptimo con perturbaciones aleatorias. En comparación con el algoritmo existente de aprendizaje por refuerzo (RL) fuera de política, el algoritmo propuesto de aprendizaje Q promedio fuera de política evita la suposición de un control de estabilidad inicial. Primero, se utiliza una estrategia de ubicación de polos para diseñar un control estable inicial para sistemas con dinámicas desconocidas. En segundo lugar, el control estable inicial se utiliza para diseñar un algoritmo de aprendizaje Q promedio fuera de política basado en datos. Luego, este algoritmo se utiliza para resolver el problema de seguimiento cuadrático lineal estocástico (LQT), y se proporciona una prueba de convergencia del algoritmo. Finalmente, ejemplos numéricos muestran que este algoritmo supera a otros algoritmos en una simulación.