Multinivel Constrained Bandits: un enfoque jerárquico de Upper Confidence Bound con garantías de seguridad

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Multinivel Constrained Bandits: un enfoque jerárquico de Upper Confidence Bound con garantías de seguridad

Autores: Baheri, Ali

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Multinivel Constrained Bandits: un enfoque jerárquico de Upper Confidence Bound con garantías de seguridad

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Problema del bandido multi-brazo

Problema MAB

Bandidos jerárquicos restringidos

Algoritmo HC-UCB

Arrepentimiento

Satisfacción de restricciones

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 19

Citaciones: Sin citaciones

El problema del bandido multi-brazo (MAB) es un modelo fundamental para la toma de decisiones secuenciales bajo incertidumbre. Aunque el MAB ha demostrado ser valioso en aplicaciones como ensayos clínicos y publicidad en línea, las formulaciones tradicionales tienen limitaciones; específicamente, les resulta difícil manejar tres escenarios clave del mundo real: (1) cuando las decisiones deben seguir una estructura jerárquica (como en sistemas autónomos donde la estrategia de alto nivel guía las acciones de bajo nivel); (2) cuando existen restricciones en múltiples niveles de toma de decisiones (como límites de recursos a nivel de sistema y componente); y (3) cuando las acciones disponibles dependen de elecciones previas o del contexto. Para abordar estos desafíos, presentamos el marco de trabajo de bandidos jerárquicos restringidos (HCB), que extiende los bandidos contextuales para incorporar decisiones jerárquicas y restricciones multinivel. Proponemos el algoritmo HC-UCB (límite superior de confianza jerárquicamente restringido) para resolver el problema de HCB. El algoritmo utiliza límites de confianza dentro de un entorno jerárquico para equilibrar la exploración y la explotación respetando las restricciones en todos los niveles. Nuestro análisis teórico establece que HC-UCB logra un arrepentimiento sublineal, garantiza la satisfacción de las restricciones en todos los niveles jerárquicos y es casi óptimo en términos de rendimiento alcanzable. Los simples resultados experimentales demuestran la efectividad del algoritmo en equilibrar la maximización de recompensas con la satisfacción de restricciones.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro