El estudio de juegos ofensivos y defensivos multiagente tolerantes a choques utilizando aprendizaje profundo por refuerzo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

El estudio de juegos ofensivos y defensivos multiagente tolerantes a choques utilizando aprendizaje profundo por refuerzo

Autores: Li, Xilun; Li, Zhan; Zheng, Xiaolong; Yang, Xuebo; Yu, Xinghu

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

El estudio de juegos ofensivos y defensivos multiagente tolerantes a choques utilizando aprendizaje profundo por refuerzo

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje profundo por refuerzo multiagente

MADRL

MADDPG

Método de agente congelado

Red neuronal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones

En el juego ofensivo y defensivo de múltiples agentes (ODG), cada agente logra su objetivo cooperando o compitiendo con otros agentes. El método de aprendizaje profundo de refuerzo de múltiples agentes (MADRL) se aplica en escenarios similares para ayudar a los agentes a tomar decisiones. En diversas situaciones, los agentes de ambos lados pueden chocar debido a colisiones. Sin embargo, los algoritmos existentes no pueden lidiar con la situación en la que el número de agentes se reduce. Basándonos en el algoritmo de gradiente de política determinista profunda de múltiples agentes (MADDPG), estudiamos un método para manejar una reducción en el número de agentes en el proceso de entrenamiento sin cambiar la estructura de la red neuronal (NN), que se llama el método de agente congelado para el MADDPG (FA-MADDPG) algoritmo. Además, diseñamos una función de recompensa por colisión de distancia para ayudar a los agentes a aprender estrategias de manera más efectiva. A través de los experimentos en cuatro escenarios con diferentes números de agentes, se verifica que el algoritmo que propusimos no solo puede manejar con éxito el problema de la reducción del número de agentes en la etapa de entrenamiento, sino que también muestra un mejor rendimiento y una mayor eficiencia que el algoritmo MADDPG en simulación.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro