logo móvil
Contáctanos

Multinivel Constrained Bandits: un enfoque jerárquico de Upper Confidence Bound con garantías de seguridad

Autores: Baheri, Ali

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Multinivel Constrained Bandits: un enfoque jerárquico de Upper Confidence Bound con garantías de seguridad


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Problema del bandido multi-brazo
Problema MAB
Bandidos jerárquicos restringidos
Algoritmo HC-UCB
Arrepentimiento
Satisfacción de restricciones

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 19

Citaciones: Sin citaciones


Descripción
El problema del bandido multi-brazo (MAB) es un modelo fundamental para la toma de decisiones secuenciales bajo incertidumbre. Aunque el MAB ha demostrado ser valioso en aplicaciones como ensayos clínicos y publicidad en línea, las formulaciones tradicionales tienen limitaciones; específicamente, les resulta difícil manejar tres escenarios clave del mundo real: (1) cuando las decisiones deben seguir una estructura jerárquica (como en sistemas autónomos donde la estrategia de alto nivel guía las acciones de bajo nivel); (2) cuando existen restricciones en múltiples niveles de toma de decisiones (como límites de recursos a nivel de sistema y componente); y (3) cuando las acciones disponibles dependen de elecciones previas o del contexto. Para abordar estos desafíos, presentamos el marco de trabajo de bandidos jerárquicos restringidos (HCB), que extiende los bandidos contextuales para incorporar decisiones jerárquicas y restricciones multinivel. Proponemos el algoritmo HC-UCB (límite superior de confianza jerárquicamente restringido) para resolver el problema de HCB. El algoritmo utiliza límites de confianza dentro de un entorno jerárquico para equilibrar la exploración y la explotación respetando las restricciones en todos los niveles. Nuestro análisis teórico establece que HC-UCB logra un arrepentimiento sublineal, garantiza la satisfacción de las restricciones en todos los niveles jerárquicos y es casi óptimo en términos de rendimiento alcanzable. Los simples resultados experimentales demuestran la efectividad del algoritmo en equilibrar la maximización de recompensas con la satisfacción de restricciones.

Otros recursos que podrían interesarte

Temas Virtualpro