Estrategias de Toma de Decisiones para Combate Aéreo a Corto Alcance Basadas en Aprendizaje por Refuerzo con Acciones de Escala Variable
Autores: Wang, Lixin; Wang, Jin; Liu, Hailiang; Yue, Ting
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Estrategias de Toma de Decisiones para Combate Aéreo a Corto Alcance Basadas en Aprendizaje por Refuerzo con Acciones de Escala Variable
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Investigación
Estrategias de toma de decisiones
Combate aéreo
Algoritmos
Aprendizaje por refuerzo
Maniobrabilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
La investigación actual sobre estrategias de toma de decisiones para el combate aéreo se centra en el rendimiento de los algoritmos, mientras que la selección de acciones a menudo se ignora, y las acciones suelen estar fijas en amplitud y limitadas en número para mejorar la eficiencia de convergencia, lo que hace que la estrategia no pueda aprovechar al máximo la maniobrabilidad de la aeronave. En este artículo, se propone una estrategia de toma de decisiones para el combate aéreo a corta distancia basada en el aprendizaje por refuerzo con acciones de escala variable; las acciones son los ángulos y velocidades de persecución virtual de escala variable. En primer lugar, se propone un método de predicción de trayectoria que consiste en una predicción en tiempo real, corrección y juicio de errores. La red neuronal de retropropagación (BP) y la red neuronal de memoria a largo y corto plazo (LSTM) se utilizan como red de predicción base y red de predicción de corrección, respectivamente. En segundo lugar, las posiciones pasadas, actuales y futuras de la aeronave objetivo se utilizan como puntos de persecución virtual, y se convierten en ángulos de persecución virtual como comandos de ángulo de trayectoria utilizando la ley de guía de ángulo. Luego, se aplica el algoritmo de optimización de política de proximidad (PPO) para entrenar al agente. Los resultados de la simulación muestran que la aeronave atacante que utiliza la estrategia propuesta en este artículo tiene una tasa de victoria más alta durante el combate aéreo y se aprovecha al máximo la maniobrabilidad de la aeronave atacante.
Descripción
La investigación actual sobre estrategias de toma de decisiones para el combate aéreo se centra en el rendimiento de los algoritmos, mientras que la selección de acciones a menudo se ignora, y las acciones suelen estar fijas en amplitud y limitadas en número para mejorar la eficiencia de convergencia, lo que hace que la estrategia no pueda aprovechar al máximo la maniobrabilidad de la aeronave. En este artículo, se propone una estrategia de toma de decisiones para el combate aéreo a corta distancia basada en el aprendizaje por refuerzo con acciones de escala variable; las acciones son los ángulos y velocidades de persecución virtual de escala variable. En primer lugar, se propone un método de predicción de trayectoria que consiste en una predicción en tiempo real, corrección y juicio de errores. La red neuronal de retropropagación (BP) y la red neuronal de memoria a largo y corto plazo (LSTM) se utilizan como red de predicción base y red de predicción de corrección, respectivamente. En segundo lugar, las posiciones pasadas, actuales y futuras de la aeronave objetivo se utilizan como puntos de persecución virtual, y se convierten en ángulos de persecución virtual como comandos de ángulo de trayectoria utilizando la ley de guía de ángulo. Luego, se aplica el algoritmo de optimización de política de proximidad (PPO) para entrenar al agente. Los resultados de la simulación muestran que la aeronave atacante que utiliza la estrategia propuesta en este artículo tiene una tasa de victoria más alta durante el combate aéreo y se aprovecha al máximo la maniobrabilidad de la aeronave atacante.