Multinivel Constrained Bandits: un enfoque jerárquico de Upper Confidence Bound con garantías de seguridad
Autores: Baheri, Ali
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Multinivel Constrained Bandits: un enfoque jerárquico de Upper Confidence Bound con garantías de seguridad
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Problema del bandido multi-brazo
Problema MAB
Bandidos jerárquicos restringidos
Algoritmo HC-UCB
Arrepentimiento
Satisfacción de restricciones
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
El problema del bandido multi-brazo (MAB) es un modelo fundamental para la toma de decisiones secuenciales bajo incertidumbre. Aunque el MAB ha demostrado ser valioso en aplicaciones como ensayos clínicos y publicidad en línea, las formulaciones tradicionales tienen limitaciones; específicamente, les resulta difícil manejar tres escenarios clave del mundo real: (1) cuando las decisiones deben seguir una estructura jerárquica (como en sistemas autónomos donde la estrategia de alto nivel guía las acciones de bajo nivel); (2) cuando existen restricciones en múltiples niveles de toma de decisiones (como límites de recursos a nivel de sistema y componente); y (3) cuando las acciones disponibles dependen de elecciones previas o del contexto. Para abordar estos desafíos, presentamos el marco de trabajo de bandidos jerárquicos restringidos (HCB), que extiende los bandidos contextuales para incorporar decisiones jerárquicas y restricciones multinivel. Proponemos el algoritmo HC-UCB (límite superior de confianza jerárquicamente restringido) para resolver el problema de HCB. El algoritmo utiliza límites de confianza dentro de un entorno jerárquico para equilibrar la exploración y la explotación respetando las restricciones en todos los niveles. Nuestro análisis teórico establece que HC-UCB logra un arrepentimiento sublineal, garantiza la satisfacción de las restricciones en todos los niveles jerárquicos y es casi óptimo en términos de rendimiento alcanzable. Los simples resultados experimentales demuestran la efectividad del algoritmo en equilibrar la maximización de recompensas con la satisfacción de restricciones.
Descripción
El problema del bandido multi-brazo (MAB) es un modelo fundamental para la toma de decisiones secuenciales bajo incertidumbre. Aunque el MAB ha demostrado ser valioso en aplicaciones como ensayos clínicos y publicidad en línea, las formulaciones tradicionales tienen limitaciones; específicamente, les resulta difícil manejar tres escenarios clave del mundo real: (1) cuando las decisiones deben seguir una estructura jerárquica (como en sistemas autónomos donde la estrategia de alto nivel guía las acciones de bajo nivel); (2) cuando existen restricciones en múltiples niveles de toma de decisiones (como límites de recursos a nivel de sistema y componente); y (3) cuando las acciones disponibles dependen de elecciones previas o del contexto. Para abordar estos desafíos, presentamos el marco de trabajo de bandidos jerárquicos restringidos (HCB), que extiende los bandidos contextuales para incorporar decisiones jerárquicas y restricciones multinivel. Proponemos el algoritmo HC-UCB (límite superior de confianza jerárquicamente restringido) para resolver el problema de HCB. El algoritmo utiliza límites de confianza dentro de un entorno jerárquico para equilibrar la exploración y la explotación respetando las restricciones en todos los niveles. Nuestro análisis teórico establece que HC-UCB logra un arrepentimiento sublineal, garantiza la satisfacción de las restricciones en todos los niveles jerárquicos y es casi óptimo en términos de rendimiento alcanzable. Los simples resultados experimentales demuestran la efectividad del algoritmo en equilibrar la maximización de recompensas con la satisfacción de restricciones.