El estudio de juegos ofensivos y defensivos multiagente tolerantes a choques utilizando aprendizaje profundo por refuerzo
Autores: Li, Xilun; Li, Zhan; Zheng, Xiaolong; Yang, Xuebo; Yu, Xinghu
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
El estudio de juegos ofensivos y defensivos multiagente tolerantes a choques utilizando aprendizaje profundo por refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje profundo por refuerzo multiagente
MADRL
MADDPG
Método de agente congelado
Red neuronal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
En el juego ofensivo y defensivo de múltiples agentes (ODG), cada agente logra su objetivo cooperando o compitiendo con otros agentes. El método de aprendizaje profundo de refuerzo de múltiples agentes (MADRL) se aplica en escenarios similares para ayudar a los agentes a tomar decisiones. En diversas situaciones, los agentes de ambos lados pueden chocar debido a colisiones. Sin embargo, los algoritmos existentes no pueden lidiar con la situación en la que el número de agentes se reduce. Basándonos en el algoritmo de gradiente de política determinista profunda de múltiples agentes (MADDPG), estudiamos un método para manejar una reducción en el número de agentes en el proceso de entrenamiento sin cambiar la estructura de la red neuronal (NN), que se llama el método de agente congelado para el MADDPG (FA-MADDPG) algoritmo. Además, diseñamos una función de recompensa por colisión de distancia para ayudar a los agentes a aprender estrategias de manera más efectiva. A través de los experimentos en cuatro escenarios con diferentes números de agentes, se verifica que el algoritmo que propusimos no solo puede manejar con éxito el problema de la reducción del número de agentes en la etapa de entrenamiento, sino que también muestra un mejor rendimiento y una mayor eficiencia que el algoritmo MADDPG en simulación.
Descripción
En el juego ofensivo y defensivo de múltiples agentes (ODG), cada agente logra su objetivo cooperando o compitiendo con otros agentes. El método de aprendizaje profundo de refuerzo de múltiples agentes (MADRL) se aplica en escenarios similares para ayudar a los agentes a tomar decisiones. En diversas situaciones, los agentes de ambos lados pueden chocar debido a colisiones. Sin embargo, los algoritmos existentes no pueden lidiar con la situación en la que el número de agentes se reduce. Basándonos en el algoritmo de gradiente de política determinista profunda de múltiples agentes (MADDPG), estudiamos un método para manejar una reducción en el número de agentes en el proceso de entrenamiento sin cambiar la estructura de la red neuronal (NN), que se llama el método de agente congelado para el MADDPG (FA-MADDPG) algoritmo. Además, diseñamos una función de recompensa por colisión de distancia para ayudar a los agentes a aprender estrategias de manera más efectiva. A través de los experimentos en cuatro escenarios con diferentes números de agentes, se verifica que el algoritmo que propusimos no solo puede manejar con éxito el problema de la reducción del número de agentes en la etapa de entrenamiento, sino que también muestra un mejor rendimiento y una mayor eficiencia que el algoritmo MADDPG en simulación.