Confrontación de Múltiples Vehículos Aéreos No Tripulados en Combate Aéreo Inteligente: Un Enfoque de Aprendizaje por Refuerzo Profundo Multi-Agente
Autores: Yang, Jianfeng; Yang, Xinwei; Yu, Tianqi
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Confrontación de Múltiples Vehículos Aéreos No Tripulados en Combate Aéreo Inteligente: Un Enfoque de Aprendizaje por Refuerzo Profundo Multi-Agente
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículo aéreo no tripulado
Colaboración inteligente
Toma de decisiones
Gradiente de política determinista profunda
Mecanismo descompuesto
Búfer de repetición de experiencias
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La confrontación múltiple de vehículos aéreos no tripulados (multi-UAV) se está convirtiendo en un modo de combate cada vez más importante en el combate aéreo inteligente. La confrontación depende en gran medida de la colaboración inteligente y la toma de decisiones en tiempo real de los UAV. Por lo tanto, se ha propuesto en este documento un algoritmo basado en la experiencia de repetición (PER) descompuesta y priorizada, denominado DP-MADDPG, para las decisiones de movimiento y ataque de los UAV. Específicamente, la confrontación se formula como un juego de Markov parcialmente observable. Para resolver el problema, se propone el algoritmo DP-MADDPG integrando los mecanismos descompuestos y PER en el MADDPG tradicional. Para superar los desafíos técnicos de la convergencia a un óptimo local y una única política dominante, se aplica el mecanismo descompuesto para modificar el marco de MADDPG con redes críticas duales locales y globales. Además, para mejorar la tasa de convergencia del proceso de entrenamiento de MADDPG, se utiliza el mecanismo PER para optimizar la eficiencia de muestreo del búfer de repetición de experiencias. Se han realizado simulaciones basadas en la plataforma Multi-agent Combat Arena (MaCA), donde los algoritmos MADDPG tradicionales y DDPG de aprendizaje independiente (ILDDPG) son puntos de referencia. Los resultados de las simulaciones indican que el DP-MADDPG propuesto mejora la tasa de convergencia y el valor de recompensa convergente. Durante las confrontaciones contra las partes azules potenciadas por la regla de distancia priorizada y el ILDDPG inteligente, la parte roja potenciadas por DP-MADDPG puede mejorar la tasa de victorias al 96% y 80.5%, respectivamente.
Descripción
La confrontación múltiple de vehículos aéreos no tripulados (multi-UAV) se está convirtiendo en un modo de combate cada vez más importante en el combate aéreo inteligente. La confrontación depende en gran medida de la colaboración inteligente y la toma de decisiones en tiempo real de los UAV. Por lo tanto, se ha propuesto en este documento un algoritmo basado en la experiencia de repetición (PER) descompuesta y priorizada, denominado DP-MADDPG, para las decisiones de movimiento y ataque de los UAV. Específicamente, la confrontación se formula como un juego de Markov parcialmente observable. Para resolver el problema, se propone el algoritmo DP-MADDPG integrando los mecanismos descompuestos y PER en el MADDPG tradicional. Para superar los desafíos técnicos de la convergencia a un óptimo local y una única política dominante, se aplica el mecanismo descompuesto para modificar el marco de MADDPG con redes críticas duales locales y globales. Además, para mejorar la tasa de convergencia del proceso de entrenamiento de MADDPG, se utiliza el mecanismo PER para optimizar la eficiencia de muestreo del búfer de repetición de experiencias. Se han realizado simulaciones basadas en la plataforma Multi-agent Combat Arena (MaCA), donde los algoritmos MADDPG tradicionales y DDPG de aprendizaje independiente (ILDDPG) son puntos de referencia. Los resultados de las simulaciones indican que el DP-MADDPG propuesto mejora la tasa de convergencia y el valor de recompensa convergente. Durante las confrontaciones contra las partes azules potenciadas por la regla de distancia priorizada y el ILDDPG inteligente, la parte roja potenciadas por DP-MADDPG puede mejorar la tasa de victorias al 96% y 80.5%, respectivamente.