Guía Anti-Intercepción para Vehículos de Planeo Hipersónicos: Un Enfoque de Aprendizaje Profundo por Refuerzo
Autores: Jiang, Liang; Nan, Ying; Zhang, Yu; Li, Zhihan
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Guía Anti-Intercepción para Vehículos de Planeo Hipersónicos: Un Enfoque de Aprendizaje Profundo por Refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Guía anti-intercepción
Vehículo de planeo hipersónico
Aprendizaje profundo por refuerzo
Proceso de decisión de Markov
Arquitectura actor-crítico
Entrenamiento por lotes repetitivos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
La guía anti-intercepción puede mejorar un vehículo de planeo hipersónico (HGV) en comparación con múltiples interceptores. En general, la guía anti-intercepción para aeronaves se puede dividir en guía procedimental, guía de rodeo y guía de evasión activa. Sin embargo, estos métodos de guía no se pueden aplicar al proceso en tiempo real desconocido de un HGV debido a la información de inteligencia limitada o a las capacidades de computación a bordo. En este documento, se propone un enfoque de guía anti-intercepción basado en el aprendizaje por refuerzo profundo (DRL). Primero, el proceso de penetración se conceptualiza como un problema óptimo adversarial de tres cuerpos generalizado (GTAO). Luego, el problema se modela como un proceso de decisión de Markov (MDP), y se diseña un esquema de DRL que consiste en una arquitectura de actor-crítico para resolver esto. Reutilizar el mismo lote de muestras durante el entrenamiento resulta en menos errores de estimación graves en la red de críticos (CN), lo que proporciona mejores gradientes a la red de actores inmadura (AN). Proponemos un nuevo mecanismo llamado entrenamiento de lotes repetitivos (RBT). Además, los datos de entrenamiento y los resultados de las pruebas confirman que el RBT puede mejorar los métodos tradicionales basados en DDPG.
Descripción
La guía anti-intercepción puede mejorar un vehículo de planeo hipersónico (HGV) en comparación con múltiples interceptores. En general, la guía anti-intercepción para aeronaves se puede dividir en guía procedimental, guía de rodeo y guía de evasión activa. Sin embargo, estos métodos de guía no se pueden aplicar al proceso en tiempo real desconocido de un HGV debido a la información de inteligencia limitada o a las capacidades de computación a bordo. En este documento, se propone un enfoque de guía anti-intercepción basado en el aprendizaje por refuerzo profundo (DRL). Primero, el proceso de penetración se conceptualiza como un problema óptimo adversarial de tres cuerpos generalizado (GTAO). Luego, el problema se modela como un proceso de decisión de Markov (MDP), y se diseña un esquema de DRL que consiste en una arquitectura de actor-crítico para resolver esto. Reutilizar el mismo lote de muestras durante el entrenamiento resulta en menos errores de estimación graves en la red de críticos (CN), lo que proporciona mejores gradientes a la red de actores inmadura (AN). Proponemos un nuevo mecanismo llamado entrenamiento de lotes repetitivos (RBT). Además, los datos de entrenamiento y los resultados de las pruebas confirman que el RBT puede mejorar los métodos tradicionales basados en DDPG.