Multi-Gear Bandits, leyes de conservación parcial e indexabilidad
Autores: Niño-Mora, José
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Multi-Gear Bandits, leyes de conservación parcial e indexabilidad
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Procesos de decisión de Markov
Consumo de recursos
Operación óptima
Bandido de múltiples marchas
Precios críticos de recursos
Política de índices
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
Este documento considera lo que proponemos llamar procesos de decisión de Markov, que modelan una dinámica genérica y estocástica alimentada por un único recurso y que admiten múltiples acciones representando engranajes de operación ordenados naturalmente por su consumo creciente de recursos. La operación óptima de un bandido de múltiples engranajes tiene como objetivo encontrar un equilibrio entre los costos o recompensas del rendimiento del proyecto y los costos de uso de recursos, que dependen del precio del recurso. Una solución óptima computacionalmente conveniente e intuitiva está disponible cuando dicho modelo es indexable, lo que significa que sus políticas óptimas están caracterizadas por un (DAI), una función de pares estado-acción que representan precios críticos de recursos. Motivados por la falta de condiciones de indexabilidad generales y esquemas eficientes de cálculo de índices, y centrándonos en el caso descuento de horizonte infinito de estado y acción finitos, presentamos un teorema de verificación que asegura que, si un modelo satisface dos propuestas con respecto a una familia postulada de políticas estructuradas, entonces es indexable y dichas políticas son óptimas, con su DAI siendo dado por un algoritmo adaptativo de codicioso con desplazamiento hacia abajo en pasos, con acciones y estados. El DAI se utiliza además como base de una nueva política de índices para el.
Descripción
Este documento considera lo que proponemos llamar procesos de decisión de Markov, que modelan una dinámica genérica y estocástica alimentada por un único recurso y que admiten múltiples acciones representando engranajes de operación ordenados naturalmente por su consumo creciente de recursos. La operación óptima de un bandido de múltiples engranajes tiene como objetivo encontrar un equilibrio entre los costos o recompensas del rendimiento del proyecto y los costos de uso de recursos, que dependen del precio del recurso. Una solución óptima computacionalmente conveniente e intuitiva está disponible cuando dicho modelo es indexable, lo que significa que sus políticas óptimas están caracterizadas por un (DAI), una función de pares estado-acción que representan precios críticos de recursos. Motivados por la falta de condiciones de indexabilidad generales y esquemas eficientes de cálculo de índices, y centrándonos en el caso descuento de horizonte infinito de estado y acción finitos, presentamos un teorema de verificación que asegura que, si un modelo satisface dos propuestas con respecto a una familia postulada de políticas estructuradas, entonces es indexable y dichas políticas son óptimas, con su DAI siendo dado por un algoritmo adaptativo de codicioso con desplazamiento hacia abajo en pasos, con acciones y estados. El DAI se utiliza además como base de una nueva política de índices para el.