Un método de coevolución adaptativa de múltiples agentes en entornos dinámicos
Autores: Li, Yan; Zhang, Huazhi; Xu, Weiming; Wang, Jianan; Wang, Jialu; Wang, Suyu
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un método de coevolución adaptativa de múltiples agentes en entornos dinámicos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Desafiante
Eficiencia de coevolución
Adaptativo de múltiples agentes
Entornos dinámicos
Método ACE-D
Efectos coevolutivos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Es desafiante asegurar una eficiencia satisfactoria de co-evolución para los multi-agentes en entornos dinámicos, ya que durante el entrenamiento Actor-Critic existe una alta probabilidad de caer en la optimización local, fallando en adaptarse rápidamente al entorno que cambia repentinamente. Para resolver este problema, este artículo propone un método de co-evolución adaptativa de multi-agentes en entornos dinámicos (ACE-D) basado en el método clásico de aprendizaje por refuerzo de multi-agentes MADDPG, que realiza efectivamente nuevos entornos auto-adaptativos y co-evolución en entornos dinámicos. Primero, se introduce una política de filtrado de experiencias basada en el método MADDPG para reducir la influencia negativa de la experiencia del entorno original en la exploración de nuevos entornos. Luego, se aplica una política de ponderación adaptativa a la red de políticas, que genera referencias para diferentes entornos y asigna mayores pesos a aquellas políticas que son más beneficiosas para la exploración de nuevos entornos, ahorrando tiempo y promoviendo la adaptabilidad de los agentes. Finalmente, se construyen diferentes tipos de entornos dinámicos con complejidad en diferentes niveles para verificar los efectos de co-evolución de las dos políticas por separado y del método ACE-D de manera integral. Los resultados experimentales demuestran que, en comparación con una variedad de otros métodos, el método ACE-D tiene claras ventajas ayudando a los multi-agentes a adaptarse a entornos dinámicos y evitando que caigan en óptimos locales, con más del 25% de mejora en la recompensa estable y más del 23% de mejora en la eficiencia de entrenamiento. El método ACE-D es valioso y digno de elogio para promover el efecto co-evolutivo de multi-agentes en entornos dinámicos.
Descripción
Es desafiante asegurar una eficiencia satisfactoria de co-evolución para los multi-agentes en entornos dinámicos, ya que durante el entrenamiento Actor-Critic existe una alta probabilidad de caer en la optimización local, fallando en adaptarse rápidamente al entorno que cambia repentinamente. Para resolver este problema, este artículo propone un método de co-evolución adaptativa de multi-agentes en entornos dinámicos (ACE-D) basado en el método clásico de aprendizaje por refuerzo de multi-agentes MADDPG, que realiza efectivamente nuevos entornos auto-adaptativos y co-evolución en entornos dinámicos. Primero, se introduce una política de filtrado de experiencias basada en el método MADDPG para reducir la influencia negativa de la experiencia del entorno original en la exploración de nuevos entornos. Luego, se aplica una política de ponderación adaptativa a la red de políticas, que genera referencias para diferentes entornos y asigna mayores pesos a aquellas políticas que son más beneficiosas para la exploración de nuevos entornos, ahorrando tiempo y promoviendo la adaptabilidad de los agentes. Finalmente, se construyen diferentes tipos de entornos dinámicos con complejidad en diferentes niveles para verificar los efectos de co-evolución de las dos políticas por separado y del método ACE-D de manera integral. Los resultados experimentales demuestran que, en comparación con una variedad de otros métodos, el método ACE-D tiene claras ventajas ayudando a los multi-agentes a adaptarse a entornos dinámicos y evitando que caigan en óptimos locales, con más del 25% de mejora en la recompensa estable y más del 23% de mejora en la eficiencia de entrenamiento. El método ACE-D es valioso y digno de elogio para promover el efecto co-evolutivo de multi-agentes en entornos dinámicos.