Evasión de Vehículos Aéreos Tridimensionales de Alta Velocidad Basada en una Red Dueling Deep Q de Múltiples Etapas
Autores: Yang, Yefeng; Huang, Tao; Wang, Xinxin; Wen, Chih-Yung; Huang, Xianlin
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Evasión de Vehículos Aéreos Tridimensionales de Alta Velocidad Basada en una Red Dueling Deep Q de Múltiples Etapas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Propone
Multi-etapa
Red profunda de Q en duelo
MS-DDQN
Algoritmo
Evasión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Este documento propone un algoritmo de red Q profunda en duelo de múltiples etapas (MS-DDQN) para abordar el problema de evasión de vehículos aéreos de alta velocidad. La persecución y evasión de vehículos aéreos de alta velocidad es un juego en curso que atrae una atención significativa en el campo de la toma de decisiones de vehículos aéreos autónomos. Sin embargo, los métodos de maniobra tradicionales generalmente no son aplicables en escenarios de alta velocidad. Independientemente del modelo del vehículo aéreo, el método basado en MS-DDQN implementado busca una política de maniobra óptima aproximada al interactuar iterativamente con el entorno. Además, se introdujo el mecanismo de aprendizaje de múltiples etapas para mejorar la calidad de los datos de entrenamiento. Se realizaron experimentos de simulación para comparar el método propuesto con varias políticas de maniobra de evasión típicas y para revelar la efectividad y robustez del algoritmo MS-DDQN propuesto.
Descripción
Este documento propone un algoritmo de red Q profunda en duelo de múltiples etapas (MS-DDQN) para abordar el problema de evasión de vehículos aéreos de alta velocidad. La persecución y evasión de vehículos aéreos de alta velocidad es un juego en curso que atrae una atención significativa en el campo de la toma de decisiones de vehículos aéreos autónomos. Sin embargo, los métodos de maniobra tradicionales generalmente no son aplicables en escenarios de alta velocidad. Independientemente del modelo del vehículo aéreo, el método basado en MS-DDQN implementado busca una política de maniobra óptima aproximada al interactuar iterativamente con el entorno. Además, se introdujo el mecanismo de aprendizaje de múltiples etapas para mejorar la calidad de los datos de entrenamiento. Se realizaron experimentos de simulación para comparar el método propuesto con varias políticas de maniobra de evasión típicas y para revelar la efectividad y robustez del algoritmo MS-DDQN propuesto.