Marco de generación de maniobras de combate aéreo basado en aprendizaje profundo y refuerzo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Marco de generación de maniobras de combate aéreo basado en aprendizaje profundo y refuerzo

Autores: Mei, Junru; Li, Ge; Huang, Hesong

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Marco de generación de maniobras de combate aéreo basado en aprendizaje profundo y refuerzo

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Desarrollo

Aeronaves no tripuladas

Tecnología de inteligencia artificial

Marco de decisión

Aprendizaje por refuerzo

Política de combate

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones

Con el desarrollo de aeronaves no tripuladas y tecnología de inteligencia artificial, el futuro del combate aéreo se está moviendo hacia una dirección no tripulada y autónoma. En este documento, presentamos un nuevo marco de decisión en capas diseñado para abordar el desafío del combate aéreo de rango visual (WVR) de aeronaves de seis grados de libertad (6-DOF). El proceso de toma de decisiones se divide en dos capas, cada una de las cuales se aborda por separado utilizando el aprendizaje por refuerzo (RL). La capa superior es la política de combate, que determina las instrucciones de maniobra basadas en la situación de combate actual (como la altitud, la velocidad y la actitud). La política de control de la capa inferior utiliza luego estos comandos para calcular las señales de entrada de varias partes de la aeronave (alabeo, elevador, timón y acelerador). Entre ellos, la política de control se modela como un marco de decisión de Markov, y la política de combate se modela como un marco de decisión de Markov parcialmente observable. Describimos el método de entrenamiento de dos capas en detalle. Para la política de control, diseñamos recompensas basadas en conocimiento experto para completar de manera precisa y estable tareas de conducción autónoma. Al mismo tiempo, para la política de combate, introducimos un aprendizaje de curso basado en juegos propios, lo que permite al agente jugar contra políticas históricas durante el entrenamiento para mejorar el rendimiento. Los resultados experimentales muestran que la tasa de éxito operativo del método propuesto frente a la línea base de teoría de juegos alcanza el 85.7%. La eficiencia también fue sobresaliente, con una reducción promedio del 13.6% en el tiempo de entrenamiento en comparación con la línea base de RL.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro