logo móvil
Contáctanos

Un eficiente mejoramiento de políticas basado en simulación con asignación óptima de presupuesto de cómputo basado en muestras acumuladas

Autores: Huang, Xilang; Choi, Seon Han

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Un eficiente mejoramiento de políticas basado en simulación con asignación óptima de presupuesto de cómputo basado en muestras acumuladas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Procesos de decisión de Markov
MDP
Mejora de política basada en simulación
SBPI
Asignación óptima de presupuesto de cómputo
OCBA.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
Los procesos de decisión de Markov (MDP) se utilizan ampliamente para modelar sistemas estocásticos y deducir políticas óptimas de toma de decisiones. Dado que las probabilidades de transición suelen ser desconocidas en los MDP, se sugiere la mejora de políticas basada en simulación (SBPI) utilizando una política base para derivar políticas óptimas cuando las probabilidades de transición de estado son desconocidas. Sin embargo, estimar el valor Q de cada acción para determinar la mejor acción en cada estado requiere muchas simulaciones, lo que resulta en problemas de eficiencia para SBPI. En este estudio, proponemos un método para mejorar la eficiencia general de SBPI utilizando una asignación óptima de presupuesto informático (OCBA) basada en muestras acumuladas. Trabajos anteriores se han centrado principalmente en mejorar la eficiencia de SBPI para un solo estado y sin utilizar las muestras de simulación previas. En contraste, el método propuesto mejora la eficiencia general hasta que se pueda encontrar una política óptima teniendo en cuenta la propiedad de recorrido de estado de SBPI. El método propuesto acumula muestras de simulación a través de estados para estimar las probabilidades de transición desconocidas. Estas probabilidades se utilizan luego para estimar la media y la varianza del valor Q para cada acción, lo que permite a OCBA asignar el presupuesto de simulación de manera eficiente para encontrar la mejor acción en cada estado. A medida que SBPI recorre el estado, las muestras acumuladas permiten una asignación adecuada de OCBA; por lo tanto, la política óptima se puede obtener con un presupuesto más bajo. Los resultados experimentales demuestran la eficiencia mejorada del método propuesto en comparación con trabajos anteriores.

Otros recursos que podrían interesarte

Temas Virtualpro