Un eficiente mejoramiento de políticas basado en simulación con asignación óptima de presupuesto de cómputo basado en muestras acumuladas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un eficiente mejoramiento de políticas basado en simulación con asignación óptima de presupuesto de cómputo basado en muestras acumuladas

Autores: Huang, Xilang; Choi, Seon Han

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Un eficiente mejoramiento de políticas basado en simulación con asignación óptima de presupuesto de cómputo basado en muestras acumuladas

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Procesos de decisión de Markov

MDP

Mejora de política basada en simulación

SBPI

Asignación óptima de presupuesto de cómputo

OCBA.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones

Los procesos de decisión de Markov (MDP) se utilizan ampliamente para modelar sistemas estocásticos y deducir políticas óptimas de toma de decisiones. Dado que las probabilidades de transición suelen ser desconocidas en los MDP, se sugiere la mejora de políticas basada en simulación (SBPI) utilizando una política base para derivar políticas óptimas cuando las probabilidades de transición de estado son desconocidas. Sin embargo, estimar el valor Q de cada acción para determinar la mejor acción en cada estado requiere muchas simulaciones, lo que resulta en problemas de eficiencia para SBPI. En este estudio, proponemos un método para mejorar la eficiencia general de SBPI utilizando una asignación óptima de presupuesto informático (OCBA) basada en muestras acumuladas. Trabajos anteriores se han centrado principalmente en mejorar la eficiencia de SBPI para un solo estado y sin utilizar las muestras de simulación previas. En contraste, el método propuesto mejora la eficiencia general hasta que se pueda encontrar una política óptima teniendo en cuenta la propiedad de recorrido de estado de SBPI. El método propuesto acumula muestras de simulación a través de estados para estimar las probabilidades de transición desconocidas. Estas probabilidades se utilizan luego para estimar la media y la varianza del valor Q para cada acción, lo que permite a OCBA asignar el presupuesto de simulación de manera eficiente para encontrar la mejor acción en cada estado. A medida que SBPI recorre el estado, las muestras acumuladas permiten una asignación adecuada de OCBA; por lo tanto, la política óptima se puede obtener con un presupuesto más bajo. Los resultados experimentales demuestran la eficiencia mejorada del método propuesto en comparación con trabajos anteriores.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro