logo móvil
Contáctanos

Marco de generación de maniobras de combate aéreo basado en aprendizaje profundo y refuerzo

Autores: Mei, Junru; Li, Ge; Huang, Hesong

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Marco de generación de maniobras de combate aéreo basado en aprendizaje profundo y refuerzo


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Desarrollo
Aeronaves no tripuladas
Tecnología de inteligencia artificial
Marco de decisión
Aprendizaje por refuerzo
Política de combate

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
Con el desarrollo de aeronaves no tripuladas y tecnología de inteligencia artificial, el futuro del combate aéreo se está moviendo hacia una dirección no tripulada y autónoma. En este documento, presentamos un nuevo marco de decisión en capas diseñado para abordar el desafío del combate aéreo de rango visual (WVR) de aeronaves de seis grados de libertad (6-DOF). El proceso de toma de decisiones se divide en dos capas, cada una de las cuales se aborda por separado utilizando el aprendizaje por refuerzo (RL). La capa superior es la política de combate, que determina las instrucciones de maniobra basadas en la situación de combate actual (como la altitud, la velocidad y la actitud). La política de control de la capa inferior utiliza luego estos comandos para calcular las señales de entrada de varias partes de la aeronave (alabeo, elevador, timón y acelerador). Entre ellos, la política de control se modela como un marco de decisión de Markov, y la política de combate se modela como un marco de decisión de Markov parcialmente observable. Describimos el método de entrenamiento de dos capas en detalle. Para la política de control, diseñamos recompensas basadas en conocimiento experto para completar de manera precisa y estable tareas de conducción autónoma. Al mismo tiempo, para la política de combate, introducimos un aprendizaje de curso basado en juegos propios, lo que permite al agente jugar contra políticas históricas durante el entrenamiento para mejorar el rendimiento. Los resultados experimentales muestran que la tasa de éxito operativo del método propuesto frente a la línea base de teoría de juegos alcanza el 85.7%. La eficiencia también fue sobresaliente, con una reducción promedio del 13.6% en el tiempo de entrenamiento en comparación con la línea base de RL.

Otros recursos que podrían interesarte

Temas Virtualpro