Mira: aumento de simulaciones imaginadas basadas en modelos para la no estacionariedad en sistemas multiagentes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mira: aumento de simulaciones imaginadas basadas en modelos para la no estacionariedad en sistemas multiagentes

Autores: Xu, Haotian; Fang, Qi; Hu, Cong; Hu, Yue; Yin, Quanjun

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Mira: aumento de simulaciones imaginadas basadas en modelos para la no estacionariedad en sistemas multiagentes

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Desafíos

Sistemas multiagente

Aprendizaje por refuerzo

No estacionariedad ambiental

Aprendizaje por refuerzo basado en modelos

Metaaprendizaje

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones

Uno de los desafíos en los sistemas multiagente proviene de la no estacionariedad ambiental, ya que las políticas de todos los agentes evolucionan individualmente con el tiempo. Muchos métodos existentes de aprendizaje por refuerzo multiagente (MARL) han sido propuestos para abordar este problema. Sin embargo, estos métodos se basan en una gran cantidad de datos de entrenamiento y algunos de ellos requieren que los agentes se comuniquen intensamente, lo cual es frecuentemente impracticable en aplicaciones del mundo real. Para abordar mejor el problema de la no estacionariedad, este artículo combina el aprendizaje por refuerzo basado en modelos (MBRL) y el meta-aprendizaje, proponiendo un método llamado Aumento de Rollouts Imaginados basado en Modelos (MIRA). Basado en un modelo de dinámica del entorno, los agentes distribuidos pueden realizar rollouts multiagente de forma independiente con modelos de oponentes durante la explotación y aprender a inferir la no estacionariedad ambiental como una variable latente utilizando los rollouts. Basándose en el modelo del mundo y el módulo de inferencia de variables latentes, realizamos una implementación multiagente de soft actor-critic para entrenamiento centralizado y toma de decisiones descentralizada. Los resultados empíricos en el Entorno de Partículas Multiagente (MPE) han demostrado que el algoritmo tiene una mejora muy considerable en eficiencia de muestras, así como recompensas convergentes mejores que los métodos MARL de vanguardia, incluyendo COMA, MAAC, MADDPG y VDN.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro