Toma de decisiones en combate aéreo de perros autónomos basada en aprendizaje por refuerzo con muestreo automático de oponentes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Toma de decisiones en combate aéreo de perros autónomos basada en aprendizaje por refuerzo con muestreo automático de oponentes

Autores: Chen, Can; Song, Tao; Mo, Li; Lv, Maolong; Lin, Defu

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Toma de decisiones en combate aéreo de perros autónomos basada en aprendizaje por refuerzo con muestreo automático de oponentes

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Combate aéreo autónomo

Tecnología de inteligencia artificial

Aprendizaje por refuerzo

Combate aéreo

Muestreo de oponentes

Estrategias de maniobra

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 42

Citaciones: Sin citaciones

El campo del combate aéreo autónomo ha experimentado un aumento en el interés impulsado por el rápido progreso de la tecnología de inteligencia artificial. Un desafío persistente dentro de este dominio se refiere a la toma de decisiones autónoma para el combate aéreo, especialmente al tratar con modelos dinámicos de aeronaves no lineales complejos y con información insuficiente. En respuesta a este desafío, este documento introduce el aprendizaje por refuerzo (RL) para entrenar estrategias de maniobra. En el contexto del RL para el combate aéreo, el método por el cual se muestrean los oponentes asume una importancia significativa en la determinación de la eficacia del entrenamiento. En consecuencia, este documento propone un nuevo marco de RL basado en el muestreo automático de oponentes (AOS) donde se aplica la optimización de políticas proximales (PPO). Este enfoque abarca tres componentes fundamentales: un conjunto de políticas de oponentes en fases con aprendizaje curricular inspirado en el recocido simulado (SA), un Meta-Solver de Boltzmann inspirado en SA, y una Función de Puerta basada en la ventana deslizante. Los resultados del entrenamiento demuestran que este algoritmo PPO mejorado con un marco AOS supera a los métodos de aprendizaje por refuerzo existentes, como el algoritmo de actor-crítico suave (SAC) y el algoritmo PPO con juego ficticio priorizado (PFSP). Además, durante los escenarios de prueba, la política de maniobra entrenada muestra una notable adaptabilidad cuando se enfrenta a una diversa gama de oponentes. Esta investigación significa un avance sustancial hacia la realización de sistemas de decisión de maniobra autónoma robustos en el contexto del combate aéreo moderno.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro