logo móvil
Contáctanos

Intercepción de un único vehículo aéreo no tripulado intruso por múltiples misiles utilizando el novedoso algoritmo de entrenamiento EA-MADDPG

Autores: Cai, He; Li, Xingsheng; Zhang, Yibo; Gao, Huanli

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Intercepción de un único vehículo aéreo no tripulado intruso por múltiples misiles utilizando el novedoso algoritmo de entrenamiento EA-MADDPG


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Propone
Algoritmo de gradiente de política determinista profunda multi-agente
EA-MADDPG
Problema de guía
Múltiples misiles
Tarea de interceptación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este documento propone un algoritmo mejorado de gradiente de política determinista profunda multi-agente llamado el algoritmo de gradiente de política determinista profunda multi-agente mejorado por recompensas iguales y acciones (EA-MADDPG) para resolver el problema de guía de múltiples misiles que cooperan para interceptar un solo UAV intruso en un espacio tridimensional. Las innovaciones clave de EA-MADDPG incluyen la implementación del filtro de acción con funciones de recompensa adicionales, un buffer de reproducción óptimo y una configuración de recompensa igual. Las funciones de recompensa adicionales y el filtro de acción se establecen para mejorar el rendimiento de exploración de los misiles durante el entrenamiento. El buffer de reproducción óptimo y la configuración de recompensa igual se implementan para mejorar la eficiencia de utilización de las experiencias de exploración obtenidas a través del filtro de acción. Con el fin de prevenir el sobreaprendizaje de ciertas experiencias, se establece un mecanismo de almacenamiento especial, donde las experiencias obtenidas a través del filtro de acción se almacenan solo en el buffer de reproducción óptimo, mientras que las experiencias normales se almacenan tanto en el buffer de reproducción óptimo como en el buffer de reproducción normal. Mientras tanto, reducimos gradualmente la probabilidad de selección del filtro de acción y la proporción de muestreo del buffer de reproducción óptimo. Finalmente, los experimentos comparativos muestran que el algoritmo mejora las capacidades de exploración de los agentes, permitiéndoles aprender políticas de manera más rápida y estable, lo que permite a múltiples misiles completar la tarea de interceptación más rápidamente y con una tasa de éxito más alta.

Otros recursos que podrían interesarte

Temas Virtualpro