El control de seguimiento de retroalimentación de salida óptima adaptable de sistemas lineales discretos de tiempo desconocidos utilizando un enfoque de Q-Learning de varios pasos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

El control de seguimiento de retroalimentación de salida óptima adaptable de sistemas lineales discretos de tiempo desconocidos utilizando un enfoque de Q-Learning de varios pasos

Autores: Dong, Xunde; Lin, Yuxin; Suo, Xudong; Wang, Xihao; Sun, Weijie

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

El control de seguimiento de retroalimentación de salida óptima adaptable de sistemas lineales discretos de tiempo desconocidos utilizando un enfoque de Q-Learning de varios pasos

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Retroalimentación de salida

Sistemas lineales en tiempo discreto

Dinámicas desconocidas

Enfoque de sistema aumentado

Algoritmo de Q-learning

Ejemplo de simulación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones

Este documento investiga el problema de control de seguimiento de retroalimentación de salida (OPFB) para sistemas lineales discretos en tiempo (DTL) con dinámicas desconocidas. Para resolver este problema, utilizamos un enfoque de sistema aumentado, que primero transforma el problema de control de seguimiento en un problema de regulación con una función de rendimiento descontada. La solución a este problema se deriva utilizando una ecuación de Bellman, basada en la función Q. Con el fin de superar los desafíos de las variables de estado del sistema no medibles, empleamos un algoritmo de aprendizaje Q de múltiples pasos que supera las ventajas de las técnicas de iteración de políticas (PI) e iteración de valores (VI) y los métodos de reconstrucción de estado para el control de retroalimentación de salida. De esta manera, se elimina el requisito de una política de control estabilizadora inicial para el método PI y se mejora la velocidad de convergencia del algoritmo de aprendizaje. Finalmente, demostramos la efectividad del esquema propuesto utilizando un ejemplo de simulación.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro