El control de seguimiento de retroalimentación de salida óptima adaptable de sistemas lineales discretos de tiempo desconocidos utilizando un enfoque de Q-Learning de varios pasos
Autores: Dong, Xunde; Lin, Yuxin; Suo, Xudong; Wang, Xihao; Sun, Weijie
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
El control de seguimiento de retroalimentación de salida óptima adaptable de sistemas lineales discretos de tiempo desconocidos utilizando un enfoque de Q-Learning de varios pasos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Retroalimentación de salida
Sistemas lineales en tiempo discreto
Dinámicas desconocidas
Enfoque de sistema aumentado
Algoritmo de Q-learning
Ejemplo de simulación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
Este documento investiga el problema de control de seguimiento de retroalimentación de salida (OPFB) para sistemas lineales discretos en tiempo (DTL) con dinámicas desconocidas. Para resolver este problema, utilizamos un enfoque de sistema aumentado, que primero transforma el problema de control de seguimiento en un problema de regulación con una función de rendimiento descontada. La solución a este problema se deriva utilizando una ecuación de Bellman, basada en la función Q. Con el fin de superar los desafíos de las variables de estado del sistema no medibles, empleamos un algoritmo de aprendizaje Q de múltiples pasos que supera las ventajas de las técnicas de iteración de políticas (PI) e iteración de valores (VI) y los métodos de reconstrucción de estado para el control de retroalimentación de salida. De esta manera, se elimina el requisito de una política de control estabilizadora inicial para el método PI y se mejora la velocidad de convergencia del algoritmo de aprendizaje. Finalmente, demostramos la efectividad del esquema propuesto utilizando un ejemplo de simulación.
Descripción
Este documento investiga el problema de control de seguimiento de retroalimentación de salida (OPFB) para sistemas lineales discretos en tiempo (DTL) con dinámicas desconocidas. Para resolver este problema, utilizamos un enfoque de sistema aumentado, que primero transforma el problema de control de seguimiento en un problema de regulación con una función de rendimiento descontada. La solución a este problema se deriva utilizando una ecuación de Bellman, basada en la función Q. Con el fin de superar los desafíos de las variables de estado del sistema no medibles, empleamos un algoritmo de aprendizaje Q de múltiples pasos que supera las ventajas de las técnicas de iteración de políticas (PI) e iteración de valores (VI) y los métodos de reconstrucción de estado para el control de retroalimentación de salida. De esta manera, se elimina el requisito de una política de control estabilizadora inicial para el método PI y se mejora la velocidad de convergencia del algoritmo de aprendizaje. Finalmente, demostramos la efectividad del esquema propuesto utilizando un ejemplo de simulación.