Control óptimo con cambio de régimen parcialmente observado: recompensas descontadas y promedio
Autores: Escobedo-Trujillo, Beatris Adriana; Garrido-Meléndez, Javier; Alcalá, Gerardo; Revuelta-Acosta, J. D.
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Control óptimo con cambio de régimen parcialmente observado: recompensas descontadas y promedio
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Problema de control óptimo
Cambio markoviano
Ecuación diferencial estocástica
Controles estacionarios de Markov
Regulador cuadrático lineal
Control de la contaminación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Consideramos un problema de control óptimo con recompensa descontada y promedio. La tasa de recompensa (o tasa de costo) puede ser ilimitada tanto por arriba como por abajo, y una ecuación diferencial estocástica con cambio markoviano da la dinámica de la variable de estado. El cambio markoviano está representado por una cadena de Markov de tiempo continuo oculta que solo puede ser observada en ruido blanco gaussiano. Nuestro objetivo general es establecer condiciones para la existencia de controles estacionarios de Markov óptimos. Este hecho generaliza las condiciones que aseguran la existencia de políticas de control óptimas para problemas de control óptimo completamente observados. Utilizamos técnicas estándar de programación dinámica y el método de filtrado de modelos de Markov ocultos para lograr nuestros objetivos. Como aplicaciones de nuestros resultados, estudiamos el problema de regulador lineal cuadrático (LQR) descontado, el problema LQR ergódico para la suspensión de cuarto de auto modelada, el problema LQR promedio para la suspensión de cuarto de auto modelada con amortiguador, y una aplicación explícita para un control óptimo de la contaminación.
Descripción
Consideramos un problema de control óptimo con recompensa descontada y promedio. La tasa de recompensa (o tasa de costo) puede ser ilimitada tanto por arriba como por abajo, y una ecuación diferencial estocástica con cambio markoviano da la dinámica de la variable de estado. El cambio markoviano está representado por una cadena de Markov de tiempo continuo oculta que solo puede ser observada en ruido blanco gaussiano. Nuestro objetivo general es establecer condiciones para la existencia de controles estacionarios de Markov óptimos. Este hecho generaliza las condiciones que aseguran la existencia de políticas de control óptimas para problemas de control óptimo completamente observados. Utilizamos técnicas estándar de programación dinámica y el método de filtrado de modelos de Markov ocultos para lograr nuestros objetivos. Como aplicaciones de nuestros resultados, estudiamos el problema de regulador lineal cuadrático (LQR) descontado, el problema LQR ergódico para la suspensión de cuarto de auto modelada, el problema LQR promedio para la suspensión de cuarto de auto modelada con amortiguador, y una aplicación explícita para un control óptimo de la contaminación.