Intercepción de un único vehículo aéreo no tripulado intruso por múltiples misiles utilizando el novedoso algoritmo de entrenamiento EA-MADDPG
Autores: Cai, He; Li, Xingsheng; Zhang, Yibo; Gao, Huanli
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Intercepción de un único vehículo aéreo no tripulado intruso por múltiples misiles utilizando el novedoso algoritmo de entrenamiento EA-MADDPG
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Propone
Algoritmo de gradiente de política determinista profunda multi-agente
EA-MADDPG
Problema de guía
Múltiples misiles
Tarea de interceptación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento propone un algoritmo mejorado de gradiente de política determinista profunda multi-agente llamado el algoritmo de gradiente de política determinista profunda multi-agente mejorado por recompensas iguales y acciones (EA-MADDPG) para resolver el problema de guía de múltiples misiles que cooperan para interceptar un solo UAV intruso en un espacio tridimensional. Las innovaciones clave de EA-MADDPG incluyen la implementación del filtro de acción con funciones de recompensa adicionales, un buffer de reproducción óptimo y una configuración de recompensa igual. Las funciones de recompensa adicionales y el filtro de acción se establecen para mejorar el rendimiento de exploración de los misiles durante el entrenamiento. El buffer de reproducción óptimo y la configuración de recompensa igual se implementan para mejorar la eficiencia de utilización de las experiencias de exploración obtenidas a través del filtro de acción. Con el fin de prevenir el sobreaprendizaje de ciertas experiencias, se establece un mecanismo de almacenamiento especial, donde las experiencias obtenidas a través del filtro de acción se almacenan solo en el buffer de reproducción óptimo, mientras que las experiencias normales se almacenan tanto en el buffer de reproducción óptimo como en el buffer de reproducción normal. Mientras tanto, reducimos gradualmente la probabilidad de selección del filtro de acción y la proporción de muestreo del buffer de reproducción óptimo. Finalmente, los experimentos comparativos muestran que el algoritmo mejora las capacidades de exploración de los agentes, permitiéndoles aprender políticas de manera más rápida y estable, lo que permite a múltiples misiles completar la tarea de interceptación más rápidamente y con una tasa de éxito más alta.
Descripción
Este documento propone un algoritmo mejorado de gradiente de política determinista profunda multi-agente llamado el algoritmo de gradiente de política determinista profunda multi-agente mejorado por recompensas iguales y acciones (EA-MADDPG) para resolver el problema de guía de múltiples misiles que cooperan para interceptar un solo UAV intruso en un espacio tridimensional. Las innovaciones clave de EA-MADDPG incluyen la implementación del filtro de acción con funciones de recompensa adicionales, un buffer de reproducción óptimo y una configuración de recompensa igual. Las funciones de recompensa adicionales y el filtro de acción se establecen para mejorar el rendimiento de exploración de los misiles durante el entrenamiento. El buffer de reproducción óptimo y la configuración de recompensa igual se implementan para mejorar la eficiencia de utilización de las experiencias de exploración obtenidas a través del filtro de acción. Con el fin de prevenir el sobreaprendizaje de ciertas experiencias, se establece un mecanismo de almacenamiento especial, donde las experiencias obtenidas a través del filtro de acción se almacenan solo en el buffer de reproducción óptimo, mientras que las experiencias normales se almacenan tanto en el buffer de reproducción óptimo como en el buffer de reproducción normal. Mientras tanto, reducimos gradualmente la probabilidad de selección del filtro de acción y la proporción de muestreo del buffer de reproducción óptimo. Finalmente, los experimentos comparativos muestran que el algoritmo mejora las capacidades de exploración de los agentes, permitiéndoles aprender políticas de manera más rápida y estable, lo que permite a múltiples misiles completar la tarea de interceptación más rápidamente y con una tasa de éxito más alta.