Un eficiente mejoramiento de políticas basado en simulación con asignación óptima de presupuesto de cómputo basado en muestras acumuladas
Autores: Huang, Xilang; Choi, Seon Han
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un eficiente mejoramiento de políticas basado en simulación con asignación óptima de presupuesto de cómputo basado en muestras acumuladas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Procesos de decisión de Markov
MDP
Mejora de política basada en simulación
SBPI
Asignación óptima de presupuesto de cómputo
OCBA.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Los procesos de decisión de Markov (MDP) se utilizan ampliamente para modelar sistemas estocásticos y deducir políticas óptimas de toma de decisiones. Dado que las probabilidades de transición suelen ser desconocidas en los MDP, se sugiere la mejora de políticas basada en simulación (SBPI) utilizando una política base para derivar políticas óptimas cuando las probabilidades de transición de estado son desconocidas. Sin embargo, estimar el valor Q de cada acción para determinar la mejor acción en cada estado requiere muchas simulaciones, lo que resulta en problemas de eficiencia para SBPI. En este estudio, proponemos un método para mejorar la eficiencia general de SBPI utilizando una asignación óptima de presupuesto informático (OCBA) basada en muestras acumuladas. Trabajos anteriores se han centrado principalmente en mejorar la eficiencia de SBPI para un solo estado y sin utilizar las muestras de simulación previas. En contraste, el método propuesto mejora la eficiencia general hasta que se pueda encontrar una política óptima teniendo en cuenta la propiedad de recorrido de estado de SBPI. El método propuesto acumula muestras de simulación a través de estados para estimar las probabilidades de transición desconocidas. Estas probabilidades se utilizan luego para estimar la media y la varianza del valor Q para cada acción, lo que permite a OCBA asignar el presupuesto de simulación de manera eficiente para encontrar la mejor acción en cada estado. A medida que SBPI recorre el estado, las muestras acumuladas permiten una asignación adecuada de OCBA; por lo tanto, la política óptima se puede obtener con un presupuesto más bajo. Los resultados experimentales demuestran la eficiencia mejorada del método propuesto en comparación con trabajos anteriores.
Descripción
Los procesos de decisión de Markov (MDP) se utilizan ampliamente para modelar sistemas estocásticos y deducir políticas óptimas de toma de decisiones. Dado que las probabilidades de transición suelen ser desconocidas en los MDP, se sugiere la mejora de políticas basada en simulación (SBPI) utilizando una política base para derivar políticas óptimas cuando las probabilidades de transición de estado son desconocidas. Sin embargo, estimar el valor Q de cada acción para determinar la mejor acción en cada estado requiere muchas simulaciones, lo que resulta en problemas de eficiencia para SBPI. En este estudio, proponemos un método para mejorar la eficiencia general de SBPI utilizando una asignación óptima de presupuesto informático (OCBA) basada en muestras acumuladas. Trabajos anteriores se han centrado principalmente en mejorar la eficiencia de SBPI para un solo estado y sin utilizar las muestras de simulación previas. En contraste, el método propuesto mejora la eficiencia general hasta que se pueda encontrar una política óptima teniendo en cuenta la propiedad de recorrido de estado de SBPI. El método propuesto acumula muestras de simulación a través de estados para estimar las probabilidades de transición desconocidas. Estas probabilidades se utilizan luego para estimar la media y la varianza del valor Q para cada acción, lo que permite a OCBA asignar el presupuesto de simulación de manera eficiente para encontrar la mejor acción en cada estado. A medida que SBPI recorre el estado, las muestras acumuladas permiten una asignación adecuada de OCBA; por lo tanto, la política óptima se puede obtener con un presupuesto más bajo. Los resultados experimentales demuestran la eficiencia mejorada del método propuesto en comparación con trabajos anteriores.