Confrontación de Múltiples Vehículos Aéreos No Tripulados en Combate Aéreo Inteligente: Un Enfoque de Aprendizaje por Refuerzo Profundo Multi-Agente

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Confrontación de Múltiples Vehículos Aéreos No Tripulados en Combate Aéreo Inteligente: Un Enfoque de Aprendizaje por Refuerzo Profundo Multi-Agente

Autores: Yang, Jianfeng; Yang, Xinwei; Yu, Tianqi

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Confrontación de Múltiples Vehículos Aéreos No Tripulados en Combate Aéreo Inteligente: Un Enfoque de Aprendizaje por Refuerzo Profundo Multi-Agente

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículo aéreo no tripulado

Colaboración inteligente

Toma de decisiones

Gradiente de política determinista profunda

Mecanismo descompuesto

Búfer de repetición de experiencias

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La confrontación múltiple de vehículos aéreos no tripulados (multi-UAV) se está convirtiendo en un modo de combate cada vez más importante en el combate aéreo inteligente. La confrontación depende en gran medida de la colaboración inteligente y la toma de decisiones en tiempo real de los UAV. Por lo tanto, se ha propuesto en este documento un algoritmo basado en la experiencia de repetición (PER) descompuesta y priorizada, denominado DP-MADDPG, para las decisiones de movimiento y ataque de los UAV. Específicamente, la confrontación se formula como un juego de Markov parcialmente observable. Para resolver el problema, se propone el algoritmo DP-MADDPG integrando los mecanismos descompuestos y PER en el MADDPG tradicional. Para superar los desafíos técnicos de la convergencia a un óptimo local y una única política dominante, se aplica el mecanismo descompuesto para modificar el marco de MADDPG con redes críticas duales locales y globales. Además, para mejorar la tasa de convergencia del proceso de entrenamiento de MADDPG, se utiliza el mecanismo PER para optimizar la eficiencia de muestreo del búfer de repetición de experiencias. Se han realizado simulaciones basadas en la plataforma Multi-agent Combat Arena (MaCA), donde los algoritmos MADDPG tradicionales y DDPG de aprendizaje independiente (ILDDPG) son puntos de referencia. Los resultados de las simulaciones indican que el DP-MADDPG propuesto mejora la tasa de convergencia y el valor de recompensa convergente. Durante las confrontaciones contra las partes azules potenciadas por la regla de distancia priorizada y el ILDDPG inteligente, la parte roja potenciadas por DP-MADDPG puede mejorar la tasa de victorias al 96% y 80.5%, respectivamente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro