Mejorando agent decision payoffs a través de un nuevo framework de opponent modeling
Autores: Liu, Chanjuan; Cong, Jinmiao; Zhao, Tianhao; Zhu, Enqiang
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mejorando agent decision payoffs a través de un nuevo framework de opponent modeling
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Agente
Modelado del oponente
Toma de decisiones
Recompensa
Aprendizaje por refuerzo
Estrategias
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
El pago de un agente depende tanto del entorno como de las acciones de otros agentes. Por lo tanto, la capacidad de modelar y predecir las estrategias y comportamientos de otros agentes en un escenario interactivo de toma de decisiones es una de las funcionalidades principales en los sistemas inteligentes. Los métodos de vanguardia para el modelado de oponentes principalmente utilizan un modelo explícito de las acciones, preferencias, objetivos, etc., de los oponentes, que el agente principal utiliza para tomar decisiones. Es más importante para un agente aumentar su pago que predecir con precisión el comportamiento de los oponentes. Por lo tanto, proponemos un marco que sincroniza el modelado de oponentes y la toma de decisiones del agente principal incorporando el modelado de oponentes en el aprendizaje por refuerzo. Para decisiones interactivas, el pago depende no solo de las características conductuales del oponente sino también del estado actual. Sin embargo, la confusión de ambos oscurece los efectos del estado y la acción, que luego no pueden ser codificados con precisión. Con este fin, la evaluación del estado se separa de la evaluación de la acción en nuestro modelo. Los resultados experimentales de dos entornos de juego, un juego de fútbol simulado y un juego real llamado quiz bowl, muestran que la introducción del modelado de oponentes puede mejorar efectivamente los pagos de las decisiones. Además, el marco propuesto para el modelado de oponentes supera a los modelos de referencia.
Descripción
El pago de un agente depende tanto del entorno como de las acciones de otros agentes. Por lo tanto, la capacidad de modelar y predecir las estrategias y comportamientos de otros agentes en un escenario interactivo de toma de decisiones es una de las funcionalidades principales en los sistemas inteligentes. Los métodos de vanguardia para el modelado de oponentes principalmente utilizan un modelo explícito de las acciones, preferencias, objetivos, etc., de los oponentes, que el agente principal utiliza para tomar decisiones. Es más importante para un agente aumentar su pago que predecir con precisión el comportamiento de los oponentes. Por lo tanto, proponemos un marco que sincroniza el modelado de oponentes y la toma de decisiones del agente principal incorporando el modelado de oponentes en el aprendizaje por refuerzo. Para decisiones interactivas, el pago depende no solo de las características conductuales del oponente sino también del estado actual. Sin embargo, la confusión de ambos oscurece los efectos del estado y la acción, que luego no pueden ser codificados con precisión. Con este fin, la evaluación del estado se separa de la evaluación de la acción en nuestro modelo. Los resultados experimentales de dos entornos de juego, un juego de fútbol simulado y un juego real llamado quiz bowl, muestran que la introducción del modelado de oponentes puede mejorar efectivamente los pagos de las decisiones. Además, el marco propuesto para el modelado de oponentes supera a los modelos de referencia.