Juego de Persecución-Evasión Inteligente Basado en Aprendizaje por Refuerzo Profundo para Vehículos Hipersónicos
Autores: Gao, Mengjing; Yan, Tian; Li, Quancheng; Fu, Wenxing; Zhang, Jin
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Juego de Persecución-Evasión Inteligente Basado en Aprendizaje por Refuerzo Profundo para Vehículos Hipersónicos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Tecnología de defensa
Juego de persecución y evasión
Vehículos hipersónicos
Escenario frontal
Estrategia de gradiente TD3
Modelo de aprendizaje por refuerzo profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
A medida que la tecnología de defensa se desarrolla, es esencial estudiar el problema del juego de persecución y evasión (PE) en vehículos hipersónicos, especialmente en la situación en la que se crea un escenario de frente a frente. En una situación de frente a frente, la ventaja de velocidad del vehículo hipersónico se ve compensada. Por lo tanto, este documento establece el escenario y el modelo para los dos lados de ataque y defensa, utilizando la estrategia de gradiente de doble retraso profundo determinista (TD3), que tiene una velocidad de convergencia más rápida y reduce la sobreestimación. En vista de la función de valor de estado-acción de vuelo, se construye el marco de decisión para el control de escape basado en el método actor-crítico, y se presenta el método de solución para un modelo de aprendizaje por refuerzo profundo basado en la red de gradiente TD3. Los resultados de la simulación muestran que la estrategia propuesta permite al vehículo hipersónico evadir con éxito, incluso bajo un escenario adverso de frente a frente. Además, se mejora la estrategia de maniobra programada del vehículo hipersónico, transformándola en una estrategia de maniobra inteligente.
Descripción
A medida que la tecnología de defensa se desarrolla, es esencial estudiar el problema del juego de persecución y evasión (PE) en vehículos hipersónicos, especialmente en la situación en la que se crea un escenario de frente a frente. En una situación de frente a frente, la ventaja de velocidad del vehículo hipersónico se ve compensada. Por lo tanto, este documento establece el escenario y el modelo para los dos lados de ataque y defensa, utilizando la estrategia de gradiente de doble retraso profundo determinista (TD3), que tiene una velocidad de convergencia más rápida y reduce la sobreestimación. En vista de la función de valor de estado-acción de vuelo, se construye el marco de decisión para el control de escape basado en el método actor-crítico, y se presenta el método de solución para un modelo de aprendizaje por refuerzo profundo basado en la red de gradiente TD3. Los resultados de la simulación muestran que la estrategia propuesta permite al vehículo hipersónico evadir con éxito, incluso bajo un escenario adverso de frente a frente. Además, se mejora la estrategia de maniobra programada del vehículo hipersónico, transformándola en una estrategia de maniobra inteligente.