Mira: aumento de simulaciones imaginadas basadas en modelos para la no estacionariedad en sistemas multiagentes
Autores: Xu, Haotian; Fang, Qi; Hu, Cong; Hu, Yue; Yin, Quanjun
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Mira: aumento de simulaciones imaginadas basadas en modelos para la no estacionariedad en sistemas multiagentes
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Desafíos
Sistemas multiagente
Aprendizaje por refuerzo
No estacionariedad ambiental
Aprendizaje por refuerzo basado en modelos
Metaaprendizaje
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Uno de los desafíos en los sistemas multiagente proviene de la no estacionariedad ambiental, ya que las políticas de todos los agentes evolucionan individualmente con el tiempo. Muchos métodos existentes de aprendizaje por refuerzo multiagente (MARL) han sido propuestos para abordar este problema. Sin embargo, estos métodos se basan en una gran cantidad de datos de entrenamiento y algunos de ellos requieren que los agentes se comuniquen intensamente, lo cual es frecuentemente impracticable en aplicaciones del mundo real. Para abordar mejor el problema de la no estacionariedad, este artículo combina el aprendizaje por refuerzo basado en modelos (MBRL) y el meta-aprendizaje, proponiendo un método llamado Aumento de Rollouts Imaginados basado en Modelos (MIRA). Basado en un modelo de dinámica del entorno, los agentes distribuidos pueden realizar rollouts multiagente de forma independiente con modelos de oponentes durante la explotación y aprender a inferir la no estacionariedad ambiental como una variable latente utilizando los rollouts. Basándose en el modelo del mundo y el módulo de inferencia de variables latentes, realizamos una implementación multiagente de soft actor-critic para entrenamiento centralizado y toma de decisiones descentralizada. Los resultados empíricos en el Entorno de Partículas Multiagente (MPE) han demostrado que el algoritmo tiene una mejora muy considerable en eficiencia de muestras, así como recompensas convergentes mejores que los métodos MARL de vanguardia, incluyendo COMA, MAAC, MADDPG y VDN.
Descripción
Uno de los desafíos en los sistemas multiagente proviene de la no estacionariedad ambiental, ya que las políticas de todos los agentes evolucionan individualmente con el tiempo. Muchos métodos existentes de aprendizaje por refuerzo multiagente (MARL) han sido propuestos para abordar este problema. Sin embargo, estos métodos se basan en una gran cantidad de datos de entrenamiento y algunos de ellos requieren que los agentes se comuniquen intensamente, lo cual es frecuentemente impracticable en aplicaciones del mundo real. Para abordar mejor el problema de la no estacionariedad, este artículo combina el aprendizaje por refuerzo basado en modelos (MBRL) y el meta-aprendizaje, proponiendo un método llamado Aumento de Rollouts Imaginados basado en Modelos (MIRA). Basado en un modelo de dinámica del entorno, los agentes distribuidos pueden realizar rollouts multiagente de forma independiente con modelos de oponentes durante la explotación y aprender a inferir la no estacionariedad ambiental como una variable latente utilizando los rollouts. Basándose en el modelo del mundo y el módulo de inferencia de variables latentes, realizamos una implementación multiagente de soft actor-critic para entrenamiento centralizado y toma de decisiones descentralizada. Los resultados empíricos en el Entorno de Partículas Multiagente (MPE) han demostrado que el algoritmo tiene una mejora muy considerable en eficiencia de muestras, así como recompensas convergentes mejores que los métodos MARL de vanguardia, incluyendo COMA, MAAC, MADDPG y VDN.