logo móvil
Contáctanos

Estrategias de Toma de Decisiones para Combate Aéreo a Corto Alcance Basadas en Aprendizaje por Refuerzo con Acciones de Escala Variable

Autores: Wang, Lixin; Wang, Jin; Liu, Hailiang; Yue, Ting

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Estrategias de Toma de Decisiones para Combate Aéreo a Corto Alcance Basadas en Aprendizaje por Refuerzo con Acciones de Escala Variable


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Investigación
Estrategias de toma de decisiones
Combate aéreo
Algoritmos
Aprendizaje por refuerzo
Maniobrabilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
La investigación actual sobre estrategias de toma de decisiones para el combate aéreo se centra en el rendimiento de los algoritmos, mientras que la selección de acciones a menudo se ignora, y las acciones suelen estar fijas en amplitud y limitadas en número para mejorar la eficiencia de convergencia, lo que hace que la estrategia no pueda aprovechar al máximo la maniobrabilidad de la aeronave. En este artículo, se propone una estrategia de toma de decisiones para el combate aéreo a corta distancia basada en el aprendizaje por refuerzo con acciones de escala variable; las acciones son los ángulos y velocidades de persecución virtual de escala variable. En primer lugar, se propone un método de predicción de trayectoria que consiste en una predicción en tiempo real, corrección y juicio de errores. La red neuronal de retropropagación (BP) y la red neuronal de memoria a largo y corto plazo (LSTM) se utilizan como red de predicción base y red de predicción de corrección, respectivamente. En segundo lugar, las posiciones pasadas, actuales y futuras de la aeronave objetivo se utilizan como puntos de persecución virtual, y se convierten en ángulos de persecución virtual como comandos de ángulo de trayectoria utilizando la ley de guía de ángulo. Luego, se aplica el algoritmo de optimización de política de proximidad (PPO) para entrenar al agente. Los resultados de la simulación muestran que la aeronave atacante que utiliza la estrategia propuesta en este artículo tiene una tasa de victoria más alta durante el combate aéreo y se aprovecha al máximo la maniobrabilidad de la aeronave atacante.

Otros recursos que podrían interesarte

Temas Virtualpro