Marco de generación de maniobras de combate aéreo basado en aprendizaje profundo y refuerzo
Autores: Mei, Junru; Li, Ge; Huang, Hesong
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Marco de generación de maniobras de combate aéreo basado en aprendizaje profundo y refuerzo
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Desarrollo
Aeronaves no tripuladas
Tecnología de inteligencia artificial
Marco de decisión
Aprendizaje por refuerzo
Política de combate
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Con el desarrollo de aeronaves no tripuladas y tecnología de inteligencia artificial, el futuro del combate aéreo se está moviendo hacia una dirección no tripulada y autónoma. En este documento, presentamos un nuevo marco de decisión en capas diseñado para abordar el desafío del combate aéreo de rango visual (WVR) de aeronaves de seis grados de libertad (6-DOF). El proceso de toma de decisiones se divide en dos capas, cada una de las cuales se aborda por separado utilizando el aprendizaje por refuerzo (RL). La capa superior es la política de combate, que determina las instrucciones de maniobra basadas en la situación de combate actual (como la altitud, la velocidad y la actitud). La política de control de la capa inferior utiliza luego estos comandos para calcular las señales de entrada de varias partes de la aeronave (alabeo, elevador, timón y acelerador). Entre ellos, la política de control se modela como un marco de decisión de Markov, y la política de combate se modela como un marco de decisión de Markov parcialmente observable. Describimos el método de entrenamiento de dos capas en detalle. Para la política de control, diseñamos recompensas basadas en conocimiento experto para completar de manera precisa y estable tareas de conducción autónoma. Al mismo tiempo, para la política de combate, introducimos un aprendizaje de curso basado en juegos propios, lo que permite al agente jugar contra políticas históricas durante el entrenamiento para mejorar el rendimiento. Los resultados experimentales muestran que la tasa de éxito operativo del método propuesto frente a la línea base de teoría de juegos alcanza el 85.7%. La eficiencia también fue sobresaliente, con una reducción promedio del 13.6% en el tiempo de entrenamiento en comparación con la línea base de RL.
Descripción
Con el desarrollo de aeronaves no tripuladas y tecnología de inteligencia artificial, el futuro del combate aéreo se está moviendo hacia una dirección no tripulada y autónoma. En este documento, presentamos un nuevo marco de decisión en capas diseñado para abordar el desafío del combate aéreo de rango visual (WVR) de aeronaves de seis grados de libertad (6-DOF). El proceso de toma de decisiones se divide en dos capas, cada una de las cuales se aborda por separado utilizando el aprendizaje por refuerzo (RL). La capa superior es la política de combate, que determina las instrucciones de maniobra basadas en la situación de combate actual (como la altitud, la velocidad y la actitud). La política de control de la capa inferior utiliza luego estos comandos para calcular las señales de entrada de varias partes de la aeronave (alabeo, elevador, timón y acelerador). Entre ellos, la política de control se modela como un marco de decisión de Markov, y la política de combate se modela como un marco de decisión de Markov parcialmente observable. Describimos el método de entrenamiento de dos capas en detalle. Para la política de control, diseñamos recompensas basadas en conocimiento experto para completar de manera precisa y estable tareas de conducción autónoma. Al mismo tiempo, para la política de combate, introducimos un aprendizaje de curso basado en juegos propios, lo que permite al agente jugar contra políticas históricas durante el entrenamiento para mejorar el rendimiento. Los resultados experimentales muestran que la tasa de éxito operativo del método propuesto frente a la línea base de teoría de juegos alcanza el 85.7%. La eficiencia también fue sobresaliente, con una reducción promedio del 13.6% en el tiempo de entrenamiento en comparación con la línea base de RL.