Toma de decisiones en combate aéreo de perros autónomos basada en aprendizaje por refuerzo con muestreo automático de oponentes
Autores: Chen, Can; Song, Tao; Mo, Li; Lv, Maolong; Lin, Defu
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Toma de decisiones en combate aéreo de perros autónomos basada en aprendizaje por refuerzo con muestreo automático de oponentes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Combate aéreo autónomo
Tecnología de inteligencia artificial
Aprendizaje por refuerzo
Combate aéreo
Muestreo de oponentes
Estrategias de maniobra
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
El campo del combate aéreo autónomo ha experimentado un aumento en el interés impulsado por el rápido progreso de la tecnología de inteligencia artificial. Un desafío persistente dentro de este dominio se refiere a la toma de decisiones autónoma para el combate aéreo, especialmente al tratar con modelos dinámicos de aeronaves no lineales complejos y con información insuficiente. En respuesta a este desafío, este documento introduce el aprendizaje por refuerzo (RL) para entrenar estrategias de maniobra. En el contexto del RL para el combate aéreo, el método por el cual se muestrean los oponentes asume una importancia significativa en la determinación de la eficacia del entrenamiento. En consecuencia, este documento propone un nuevo marco de RL basado en el muestreo automático de oponentes (AOS) donde se aplica la optimización de políticas proximales (PPO). Este enfoque abarca tres componentes fundamentales: un conjunto de políticas de oponentes en fases con aprendizaje curricular inspirado en el recocido simulado (SA), un Meta-Solver de Boltzmann inspirado en SA, y una Función de Puerta basada en la ventana deslizante. Los resultados del entrenamiento demuestran que este algoritmo PPO mejorado con un marco AOS supera a los métodos de aprendizaje por refuerzo existentes, como el algoritmo de actor-crítico suave (SAC) y el algoritmo PPO con juego ficticio priorizado (PFSP). Además, durante los escenarios de prueba, la política de maniobra entrenada muestra una notable adaptabilidad cuando se enfrenta a una diversa gama de oponentes. Esta investigación significa un avance sustancial hacia la realización de sistemas de decisión de maniobra autónoma robustos en el contexto del combate aéreo moderno.
Descripción
El campo del combate aéreo autónomo ha experimentado un aumento en el interés impulsado por el rápido progreso de la tecnología de inteligencia artificial. Un desafío persistente dentro de este dominio se refiere a la toma de decisiones autónoma para el combate aéreo, especialmente al tratar con modelos dinámicos de aeronaves no lineales complejos y con información insuficiente. En respuesta a este desafío, este documento introduce el aprendizaje por refuerzo (RL) para entrenar estrategias de maniobra. En el contexto del RL para el combate aéreo, el método por el cual se muestrean los oponentes asume una importancia significativa en la determinación de la eficacia del entrenamiento. En consecuencia, este documento propone un nuevo marco de RL basado en el muestreo automático de oponentes (AOS) donde se aplica la optimización de políticas proximales (PPO). Este enfoque abarca tres componentes fundamentales: un conjunto de políticas de oponentes en fases con aprendizaje curricular inspirado en el recocido simulado (SA), un Meta-Solver de Boltzmann inspirado en SA, y una Función de Puerta basada en la ventana deslizante. Los resultados del entrenamiento demuestran que este algoritmo PPO mejorado con un marco AOS supera a los métodos de aprendizaje por refuerzo existentes, como el algoritmo de actor-crítico suave (SAC) y el algoritmo PPO con juego ficticio priorizado (PFSP). Además, durante los escenarios de prueba, la política de maniobra entrenada muestra una notable adaptabilidad cuando se enfrenta a una diversa gama de oponentes. Esta investigación significa un avance sustancial hacia la realización de sistemas de decisión de maniobra autónoma robustos en el contexto del combate aéreo moderno.