logo móvil
Contáctanos

Toma de decisiones en combate aéreo de perros autónomos basada en aprendizaje por refuerzo con muestreo automático de oponentes

Autores: Chen, Can; Song, Tao; Mo, Li; Lv, Maolong; Lin, Defu

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Toma de decisiones en combate aéreo de perros autónomos basada en aprendizaje por refuerzo con muestreo automático de oponentes


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Combate aéreo autónomo
Tecnología de inteligencia artificial
Aprendizaje por refuerzo
Combate aéreo
Muestreo de oponentes
Estrategias de maniobra

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 42

Citaciones: Sin citaciones


Descripción
El campo del combate aéreo autónomo ha experimentado un aumento en el interés impulsado por el rápido progreso de la tecnología de inteligencia artificial. Un desafío persistente dentro de este dominio se refiere a la toma de decisiones autónoma para el combate aéreo, especialmente al tratar con modelos dinámicos de aeronaves no lineales complejos y con información insuficiente. En respuesta a este desafío, este documento introduce el aprendizaje por refuerzo (RL) para entrenar estrategias de maniobra. En el contexto del RL para el combate aéreo, el método por el cual se muestrean los oponentes asume una importancia significativa en la determinación de la eficacia del entrenamiento. En consecuencia, este documento propone un nuevo marco de RL basado en el muestreo automático de oponentes (AOS) donde se aplica la optimización de políticas proximales (PPO). Este enfoque abarca tres componentes fundamentales: un conjunto de políticas de oponentes en fases con aprendizaje curricular inspirado en el recocido simulado (SA), un Meta-Solver de Boltzmann inspirado en SA, y una Función de Puerta basada en la ventana deslizante. Los resultados del entrenamiento demuestran que este algoritmo PPO mejorado con un marco AOS supera a los métodos de aprendizaje por refuerzo existentes, como el algoritmo de actor-crítico suave (SAC) y el algoritmo PPO con juego ficticio priorizado (PFSP). Además, durante los escenarios de prueba, la política de maniobra entrenada muestra una notable adaptabilidad cuando se enfrenta a una diversa gama de oponentes. Esta investigación significa un avance sustancial hacia la realización de sistemas de decisión de maniobra autónoma robustos en el contexto del combate aéreo moderno.

Otros recursos que podrían interesarte

Temas Virtualpro