logo móvil
Contáctanos

Confrontación de Múltiples Vehículos Aéreos No Tripulados en Combate Aéreo Inteligente: Un Enfoque de Aprendizaje por Refuerzo Profundo Multi-Agente

Autores: Yang, Jianfeng; Yang, Xinwei; Yu, Tianqi

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Confrontación de Múltiples Vehículos Aéreos No Tripulados en Combate Aéreo Inteligente: Un Enfoque de Aprendizaje por Refuerzo Profundo Multi-Agente


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículo aéreo no tripulado
Colaboración inteligente
Toma de decisiones
Gradiente de política determinista profunda
Mecanismo descompuesto
Búfer de repetición de experiencias

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La confrontación múltiple de vehículos aéreos no tripulados (multi-UAV) se está convirtiendo en un modo de combate cada vez más importante en el combate aéreo inteligente. La confrontación depende en gran medida de la colaboración inteligente y la toma de decisiones en tiempo real de los UAV. Por lo tanto, se ha propuesto en este documento un algoritmo basado en la experiencia de repetición (PER) descompuesta y priorizada, denominado DP-MADDPG, para las decisiones de movimiento y ataque de los UAV. Específicamente, la confrontación se formula como un juego de Markov parcialmente observable. Para resolver el problema, se propone el algoritmo DP-MADDPG integrando los mecanismos descompuestos y PER en el MADDPG tradicional. Para superar los desafíos técnicos de la convergencia a un óptimo local y una única política dominante, se aplica el mecanismo descompuesto para modificar el marco de MADDPG con redes críticas duales locales y globales. Además, para mejorar la tasa de convergencia del proceso de entrenamiento de MADDPG, se utiliza el mecanismo PER para optimizar la eficiencia de muestreo del búfer de repetición de experiencias. Se han realizado simulaciones basadas en la plataforma Multi-agent Combat Arena (MaCA), donde los algoritmos MADDPG tradicionales y DDPG de aprendizaje independiente (ILDDPG) son puntos de referencia. Los resultados de las simulaciones indican que el DP-MADDPG propuesto mejora la tasa de convergencia y el valor de recompensa convergente. Durante las confrontaciones contra las partes azules potenciadas por la regla de distancia priorizada y el ILDDPG inteligente, la parte roja potenciadas por DP-MADDPG puede mejorar la tasa de victorias al 96% y 80.5%, respectivamente.

Otros recursos que podrían interesarte

Temas Virtualpro