Estrategias de Toma de Decisiones para Combate Aéreo a Corto Alcance Basadas en Aprendizaje por Refuerzo con Acciones de Escala Variable

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Estrategias de Toma de Decisiones para Combate Aéreo a Corto Alcance Basadas en Aprendizaje por Refuerzo con Acciones de Escala Variable

Autores: Wang, Lixin; Wang, Jin; Liu, Hailiang; Yue, Ting

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Estrategias de Toma de Decisiones para Combate Aéreo a Corto Alcance Basadas en Aprendizaje por Refuerzo con Acciones de Escala Variable

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Investigación

Estrategias de toma de decisiones

Combate aéreo

Algoritmos

Aprendizaje por refuerzo

Maniobrabilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones

La investigación actual sobre estrategias de toma de decisiones para el combate aéreo se centra en el rendimiento de los algoritmos, mientras que la selección de acciones a menudo se ignora, y las acciones suelen estar fijas en amplitud y limitadas en número para mejorar la eficiencia de convergencia, lo que hace que la estrategia no pueda aprovechar al máximo la maniobrabilidad de la aeronave. En este artículo, se propone una estrategia de toma de decisiones para el combate aéreo a corta distancia basada en el aprendizaje por refuerzo con acciones de escala variable; las acciones son los ángulos y velocidades de persecución virtual de escala variable. En primer lugar, se propone un método de predicción de trayectoria que consiste en una predicción en tiempo real, corrección y juicio de errores. La red neuronal de retropropagación (BP) y la red neuronal de memoria a largo y corto plazo (LSTM) se utilizan como red de predicción base y red de predicción de corrección, respectivamente. En segundo lugar, las posiciones pasadas, actuales y futuras de la aeronave objetivo se utilizan como puntos de persecución virtual, y se convierten en ángulos de persecución virtual como comandos de ángulo de trayectoria utilizando la ley de guía de ángulo. Luego, se aplica el algoritmo de optimización de política de proximidad (PPO) para entrenar al agente. Los resultados de la simulación muestran que la aeronave atacante que utiliza la estrategia propuesta en este artículo tiene una tasa de victoria más alta durante el combate aéreo y se aprovecha al máximo la maniobrabilidad de la aeronave atacante.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro