Método de Decisión de Maniobras de Combate Aéreo Basado en Aprendizaje por Refuerzo Profundo A3C
Autores: Fan, Zihao; Xu, Yang; Kang, Yuhang; Luo, Delin
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Método de Decisión de Maniobras de Combate Aéreo Basado en Aprendizaje por Refuerzo Profundo A3C
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Decisión de maniobra
UCAVs
Aprendizaje profundo por refuerzo
ángulo de ataque
Modelo de red neuronal
Combate aéreo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 17
Citaciones: Sin citaciones
Para resolver el problema de decisión de maniobra en el combate aéreo de vehículos aéreos de combate no tripulados (UCAV), en este artículo se propone un método de decisión de maniobra autónoma para un UCAV basado en el aprendizaje por refuerzo profundo. En primer lugar, se establece el modelo de maniobra de vuelo del UCAV y la biblioteca de maniobras de ambos lados opuestos. Luego, considerando los diferentes efectos de transición de estado de varias acciones cuando los ángulos de cabeceo de los UCAV son diferentes, se toman 10 variables de estado, incluido el ángulo de cabeceo, como el espacio de estado. Combinado con el modelo de índice de evaluación de amenazas de la situación de combate aéreo, se diseña un mecanismo de recompensa de dos capas que combina recompensa interna y recompensa escasa como base de evaluación del aprendizaje por refuerzo. A continuación, se construye el modelo de red neuronal de la capa de conexión completa de acuerdo con un algoritmo de Actor-Crítico de Ventaja Asincrónica (A3C). De manera multihilo, nuestro UCAV sigue aprendiendo interactivamente con el entorno para entrenar el modelo y aprende gradualmente la estrategia óptima de maniobra de combate aéreo, guiando a nuestro UCAV en la selección de acciones. El algoritmo reduce la correlación entre muestras a través del aprendizaje asincrónico multihilo. Finalmente, se verifica la efectividad y viabilidad del método en tres escenarios de combate aéreo diferentes.
Descripción
Para resolver el problema de decisión de maniobra en el combate aéreo de vehículos aéreos de combate no tripulados (UCAV), en este artículo se propone un método de decisión de maniobra autónoma para un UCAV basado en el aprendizaje por refuerzo profundo. En primer lugar, se establece el modelo de maniobra de vuelo del UCAV y la biblioteca de maniobras de ambos lados opuestos. Luego, considerando los diferentes efectos de transición de estado de varias acciones cuando los ángulos de cabeceo de los UCAV son diferentes, se toman 10 variables de estado, incluido el ángulo de cabeceo, como el espacio de estado. Combinado con el modelo de índice de evaluación de amenazas de la situación de combate aéreo, se diseña un mecanismo de recompensa de dos capas que combina recompensa interna y recompensa escasa como base de evaluación del aprendizaje por refuerzo. A continuación, se construye el modelo de red neuronal de la capa de conexión completa de acuerdo con un algoritmo de Actor-Crítico de Ventaja Asincrónica (A3C). De manera multihilo, nuestro UCAV sigue aprendiendo interactivamente con el entorno para entrenar el modelo y aprende gradualmente la estrategia óptima de maniobra de combate aéreo, guiando a nuestro UCAV en la selección de acciones. El algoritmo reduce la correlación entre muestras a través del aprendizaje asincrónico multihilo. Finalmente, se verifica la efectividad y viabilidad del método en tres escenarios de combate aéreo diferentes.