Método de Decisión de Maniobras de Combate Aéreo Basado en Aprendizaje por Refuerzo Profundo A3C

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Método de Decisión de Maniobras de Combate Aéreo Basado en Aprendizaje por Refuerzo Profundo A3C

Autores: Fan, Zihao; Xu, Yang; Kang, Yuhang; Luo, Delin

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Método de Decisión de Maniobras de Combate Aéreo Basado en Aprendizaje por Refuerzo Profundo A3C

Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Decisión de maniobra

UCAVs

Aprendizaje profundo por refuerzo

ángulo de ataque

Modelo de red neuronal

Combate aéreo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 17

Citaciones: Sin citaciones

Para resolver el problema de decisión de maniobra en el combate aéreo de vehículos aéreos de combate no tripulados (UCAV), en este artículo se propone un método de decisión de maniobra autónoma para un UCAV basado en el aprendizaje por refuerzo profundo. En primer lugar, se establece el modelo de maniobra de vuelo del UCAV y la biblioteca de maniobras de ambos lados opuestos. Luego, considerando los diferentes efectos de transición de estado de varias acciones cuando los ángulos de cabeceo de los UCAV son diferentes, se toman 10 variables de estado, incluido el ángulo de cabeceo, como el espacio de estado. Combinado con el modelo de índice de evaluación de amenazas de la situación de combate aéreo, se diseña un mecanismo de recompensa de dos capas que combina recompensa interna y recompensa escasa como base de evaluación del aprendizaje por refuerzo. A continuación, se construye el modelo de red neuronal de la capa de conexión completa de acuerdo con un algoritmo de Actor-Crítico de Ventaja Asincrónica (A3C). De manera multihilo, nuestro UCAV sigue aprendiendo interactivamente con el entorno para entrenar el modelo y aprende gradualmente la estrategia óptima de maniobra de combate aéreo, guiando a nuestro UCAV en la selección de acciones. El algoritmo reduce la correlación entre muestras a través del aprendizaje asincrónico multihilo. Finalmente, se verifica la efectividad y viabilidad del método en tres escenarios de combate aéreo diferentes.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro