logo móvil
Contáctanos

Mira: aumento de simulaciones imaginadas basadas en modelos para la no estacionariedad en sistemas multiagentes

Autores: Xu, Haotian; Fang, Qi; Hu, Cong; Hu, Yue; Yin, Quanjun

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Mira: aumento de simulaciones imaginadas basadas en modelos para la no estacionariedad en sistemas multiagentes


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Desafíos
Sistemas multiagente
Aprendizaje por refuerzo
No estacionariedad ambiental
Aprendizaje por refuerzo basado en modelos
Metaaprendizaje

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
Uno de los desafíos en los sistemas multiagente proviene de la no estacionariedad ambiental, ya que las políticas de todos los agentes evolucionan individualmente con el tiempo. Muchos métodos existentes de aprendizaje por refuerzo multiagente (MARL) han sido propuestos para abordar este problema. Sin embargo, estos métodos se basan en una gran cantidad de datos de entrenamiento y algunos de ellos requieren que los agentes se comuniquen intensamente, lo cual es frecuentemente impracticable en aplicaciones del mundo real. Para abordar mejor el problema de la no estacionariedad, este artículo combina el aprendizaje por refuerzo basado en modelos (MBRL) y el meta-aprendizaje, proponiendo un método llamado Aumento de Rollouts Imaginados basado en Modelos (MIRA). Basado en un modelo de dinámica del entorno, los agentes distribuidos pueden realizar rollouts multiagente de forma independiente con modelos de oponentes durante la explotación y aprender a inferir la no estacionariedad ambiental como una variable latente utilizando los rollouts. Basándose en el modelo del mundo y el módulo de inferencia de variables latentes, realizamos una implementación multiagente de soft actor-critic para entrenamiento centralizado y toma de decisiones descentralizada. Los resultados empíricos en el Entorno de Partículas Multiagente (MPE) han demostrado que el algoritmo tiene una mejora muy considerable en eficiencia de muestras, así como recompensas convergentes mejores que los métodos MARL de vanguardia, incluyendo COMA, MAAC, MADDPG y VDN.

Otros recursos que podrían interesarte

Temas Virtualpro