logo móvil
Contáctanos

Control cuadrático de seguimiento de sistemas estocásticos lineales con dinámicas desconocidas utilizando el método de aprendizaje Q promedio fuera de política

Autores: Hao, Longyan; Wang, Chaoli; Shi, Yibo

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Control cuadrático de seguimiento de sistemas estocásticos lineales con dinámicas desconocidas utilizando el método de aprendizaje Q promedio fuera de política


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Control de seguimiento óptimo
Sistemas lineales estocásticos en tiempo discreto basados en datos
Algoritmo Q-learning fuera de política
Perturbaciones aleatorias
Aprendizaje por refuerzo
Seguimiento cuadrático lineal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones


Descripción
Este artículo investiga el problema óptimo de control de seguimiento para sistemas lineales estocásticos discretos basados en datos. Se propone un algoritmo de aprendizaje Q promedio fuera de política para resolver el problema de control óptimo con perturbaciones aleatorias. En comparación con el algoritmo existente de aprendizaje por refuerzo (RL) fuera de política, el algoritmo propuesto de aprendizaje Q promedio fuera de política evita la suposición de un control de estabilidad inicial. Primero, se utiliza una estrategia de ubicación de polos para diseñar un control estable inicial para sistemas con dinámicas desconocidas. En segundo lugar, el control estable inicial se utiliza para diseñar un algoritmo de aprendizaje Q promedio fuera de política basado en datos. Luego, este algoritmo se utiliza para resolver el problema de seguimiento cuadrático lineal estocástico (LQT), y se proporciona una prueba de convergencia del algoritmo. Finalmente, ejemplos numéricos muestran que este algoritmo supera a otros algoritmos en una simulación.

Otros recursos que podrían interesarte

Temas Virtualpro