Diseño de guía para vehículo de escape contra múltiples vehículos de persecución utilizando el algoritmo de optimización de políticas proximales basado en RNN
Autores: Hu, Xiao; Wang, Hongbo; Gong, Min; Wang, Tianshu
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Diseño de guía para vehículo de escape contra múltiples vehículos de persecución utilizando el algoritmo de optimización de políticas proximales basado en RNN
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Comandos de orientación
Vehículos de vuelo
Aprendizaje profundo por refuerzo
Distancia de evasión
EFV
PFVs
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
Los comandos de guía de los vehículos de vuelo pueden considerarse como una serie de conjuntos de datos con intervalos de tiempo fijos; por lo tanto, el diseño de la guía constituye un problema típico de decisión secuencial y satisface las condiciones básicas para utilizar la técnica de aprendizaje por refuerzo profundo (DRL). En este documento, consideramos el escenario en el que el vehículo de vuelo de escape (EFV) genera comandos de guía basados en la técnica DRL, mientras que los vehículos de vuelo de persecución (PFVs) derivan sus comandos de guía empleando el método de navegación proporcional. Para cada PFV, la distancia de evasión se describe como la distancia mínima entre el EFV y el PFV durante el proceso de escape y persecución. Para el EFV, el objetivo del diseño de la guía implica maximizar progresivamente la velocidad residual, que se describe como la velocidad del EFV cuando se alcanza la última distancia de evasión, sujeto a la restricción impuesta por el umbral de distancia de evasión dado. En el problema delineado, emergen tres dimensionalidades de incertidumbre: (1) el número de PFVs que requieren evasión en cada instante de tiempo; (2) el instante de tiempo preciso en el que se pueden alcanzar cada una de las distancias de evasión; (3) si cada distancia de evasión alcanzada excede el umbral dado o no. Para resolver el desafiante problema, proponemos una solución innovadora que integra la red neuronal recurrente (RNN) con el algoritmo de optimización de políticas proximal (PPO), diseñado para generar los comandos de guía del EFV. Inicialmente, el modelo, entrenado por el algoritmo PPO basado en RNN, demuestra efectividad en evadir un solo PFV. Posteriormente, el modelo mencionado se despliega para evadir PFVs adicionales, aumentando sistemáticamente las capacidades del modelo. Los resultados de simulación exhaustivos corroboran que el método de diseño de guía basado en el algoritmo PPO propuesto, basado en RNN, es altamente efectivo.
Descripción
Los comandos de guía de los vehículos de vuelo pueden considerarse como una serie de conjuntos de datos con intervalos de tiempo fijos; por lo tanto, el diseño de la guía constituye un problema típico de decisión secuencial y satisface las condiciones básicas para utilizar la técnica de aprendizaje por refuerzo profundo (DRL). En este documento, consideramos el escenario en el que el vehículo de vuelo de escape (EFV) genera comandos de guía basados en la técnica DRL, mientras que los vehículos de vuelo de persecución (PFVs) derivan sus comandos de guía empleando el método de navegación proporcional. Para cada PFV, la distancia de evasión se describe como la distancia mínima entre el EFV y el PFV durante el proceso de escape y persecución. Para el EFV, el objetivo del diseño de la guía implica maximizar progresivamente la velocidad residual, que se describe como la velocidad del EFV cuando se alcanza la última distancia de evasión, sujeto a la restricción impuesta por el umbral de distancia de evasión dado. En el problema delineado, emergen tres dimensionalidades de incertidumbre: (1) el número de PFVs que requieren evasión en cada instante de tiempo; (2) el instante de tiempo preciso en el que se pueden alcanzar cada una de las distancias de evasión; (3) si cada distancia de evasión alcanzada excede el umbral dado o no. Para resolver el desafiante problema, proponemos una solución innovadora que integra la red neuronal recurrente (RNN) con el algoritmo de optimización de políticas proximal (PPO), diseñado para generar los comandos de guía del EFV. Inicialmente, el modelo, entrenado por el algoritmo PPO basado en RNN, demuestra efectividad en evadir un solo PFV. Posteriormente, el modelo mencionado se despliega para evadir PFVs adicionales, aumentando sistemáticamente las capacidades del modelo. Los resultados de simulación exhaustivos corroboran que el método de diseño de guía basado en el algoritmo PPO propuesto, basado en RNN, es altamente efectivo.