Control cuadrático de seguimiento de sistemas estocásticos lineales con dinámicas desconocidas utilizando el método de aprendizaje Q promedio fuera de política

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Control cuadrático de seguimiento de sistemas estocásticos lineales con dinámicas desconocidas utilizando el método de aprendizaje Q promedio fuera de política

Autores: Hao, Longyan; Wang, Chaoli; Shi, Yibo

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Control cuadrático de seguimiento de sistemas estocásticos lineales con dinámicas desconocidas utilizando el método de aprendizaje Q promedio fuera de política

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Control de seguimiento óptimo

Sistemas lineales estocásticos en tiempo discreto basados en datos

Algoritmo Q-learning fuera de política

Perturbaciones aleatorias

Aprendizaje por refuerzo

Seguimiento cuadrático lineal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones

Este artículo investiga el problema óptimo de control de seguimiento para sistemas lineales estocásticos discretos basados en datos. Se propone un algoritmo de aprendizaje Q promedio fuera de política para resolver el problema de control óptimo con perturbaciones aleatorias. En comparación con el algoritmo existente de aprendizaje por refuerzo (RL) fuera de política, el algoritmo propuesto de aprendizaje Q promedio fuera de política evita la suposición de un control de estabilidad inicial. Primero, se utiliza una estrategia de ubicación de polos para diseñar un control estable inicial para sistemas con dinámicas desconocidas. En segundo lugar, el control estable inicial se utiliza para diseñar un algoritmo de aprendizaje Q promedio fuera de política basado en datos. Luego, este algoritmo se utiliza para resolver el problema de seguimiento cuadrático lineal estocástico (LQT), y se proporciona una prueba de convergencia del algoritmo. Finalmente, ejemplos numéricos muestran que este algoritmo supera a otros algoritmos en una simulación.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro