logo móvil
Contáctanos

Estrategias de Bandido Multibrazo Informadas por LLM para Entornos No Estacionarios

Autores: de Curtò, J.; de Zarzà, I.; Roig, Gemma; Cano, Juan Carlos; Manzoni, Pietro; Calafate, Carlos T.

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Estrategias de Bandido Multibrazo Informadas por LLM para Entornos No Estacionarios


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Enfoque
Bandido de múltiples brazos
Modelos de lenguaje grandes
Entornos no estacionarios
Estrategias de bandido
Distribuciones de recompensa fluctuantes

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 46

Citaciones: Sin citaciones


Descripción
En este documento, presentamos un enfoque innovador para manejar el problema del bandido multi-brazo (MAB) en entornos no estacionarios, aprovechando el poder predictivo de los grandes modelos de lenguaje (LLMs). Con la realización de que las estrategias tradicionales de bandido, incluyendo epsilon-greedy y upper confidence bound (UCB), pueden tener dificultades ante los cambios dinámicos, proponemos una estrategia informada por LLMs que ofrece orientación dinámica sobre la exploración versus la explotación, dependiendo del estado actual de los bandidos. Presentamos un nuevo modelo de bandido no estacionario con distribuciones de recompensa fluctuantes e ilustramos cómo se pueden emplear LLMs para guiar la elección del bandido en medio de esta variabilidad. Los resultados experimentales ilustran el potencial de nuestra estrategia informada por LLMs, demostrando su adaptabilidad a la naturaleza fluctuante del problema del bandido, manteniendo un rendimiento competitivo frente a estrategias convencionales. Este estudio proporciona ideas clave sobre las capacidades de los LLMs para mejorar los procesos de toma de decisiones en escenarios dinámicos e inciertos.

Otros recursos que podrían interesarte

Temas Virtualpro