Intercepción de un único vehículo aéreo no tripulado intruso por múltiples misiles utilizando el novedoso algoritmo de entrenamiento EA-MADDPG

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Intercepción de un único vehículo aéreo no tripulado intruso por múltiples misiles utilizando el novedoso algoritmo de entrenamiento EA-MADDPG

Autores: Cai, He; Li, Xingsheng; Zhang, Yibo; Gao, Huanli

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Intercepción de un único vehículo aéreo no tripulado intruso por múltiples misiles utilizando el novedoso algoritmo de entrenamiento EA-MADDPG

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Propone

Algoritmo de gradiente de política determinista profunda multi-agente

EA-MADDPG

Problema de guía

Múltiples misiles

Tarea de interceptación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este documento propone un algoritmo mejorado de gradiente de política determinista profunda multi-agente llamado el algoritmo de gradiente de política determinista profunda multi-agente mejorado por recompensas iguales y acciones (EA-MADDPG) para resolver el problema de guía de múltiples misiles que cooperan para interceptar un solo UAV intruso en un espacio tridimensional. Las innovaciones clave de EA-MADDPG incluyen la implementación del filtro de acción con funciones de recompensa adicionales, un buffer de reproducción óptimo y una configuración de recompensa igual. Las funciones de recompensa adicionales y el filtro de acción se establecen para mejorar el rendimiento de exploración de los misiles durante el entrenamiento. El buffer de reproducción óptimo y la configuración de recompensa igual se implementan para mejorar la eficiencia de utilización de las experiencias de exploración obtenidas a través del filtro de acción. Con el fin de prevenir el sobreaprendizaje de ciertas experiencias, se establece un mecanismo de almacenamiento especial, donde las experiencias obtenidas a través del filtro de acción se almacenan solo en el buffer de reproducción óptimo, mientras que las experiencias normales se almacenan tanto en el buffer de reproducción óptimo como en el buffer de reproducción normal. Mientras tanto, reducimos gradualmente la probabilidad de selección del filtro de acción y la proporción de muestreo del buffer de reproducción óptimo. Finalmente, los experimentos comparativos muestran que el algoritmo mejora las capacidades de exploración de los agentes, permitiéndoles aprender políticas de manera más rápida y estable, lo que permite a múltiples misiles completar la tarea de interceptación más rápidamente y con una tasa de éxito más alta.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro