Toma de decisiones de maniobra en juegos aéreos de UAV utilizando una red Q doble profunda en duelo con un mecanismo de almacenamiento de experiencia de expertos
Autores: Zhang, Jiahui; Meng, Zhijun; He, Jiazheng; Wang, Zichen; Liu, Lulu
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Toma de decisiones de maniobra en juegos aéreos de UAV utilizando una red Q doble profunda en duelo con un mecanismo de almacenamiento de experiencia de expertos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje por refuerzo
Tridimensional
Vehículo Aéreo No Tripulado
Convergencia de algoritmos
Repetición de experiencias
Dueling Double Deep Q Network
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La tecnología de aprendizaje por refuerzo profundo aplicada a la toma de decisiones de maniobras en juegos aéreos tridimensionales de Vehículos Aéreos No Tripulados (VANT) a menudo resulta en una baja eficiencia de utilización de los datos de entrenamiento y dificultades en la convergencia del algoritmo. Para abordar estos problemas, este estudio propone un mecanismo de almacenamiento de experiencia de expertos que mejora el rendimiento del algoritmo con menos tiempo de repetición de experiencia. Basado en este mecanismo, se introduce un algoritmo de decisión de maniobras utilizando la Red Dueling Double Deep Q. Los experimentos de simulación demuestran que el mecanismo propuesto mejora significativamente el rendimiento del algoritmo al reducir la experiencia en un 81.3% en comparación con el mecanismo de repetición de experiencia priorizada, permitiendo que el agente VANT logre un mayor valor promedio de recompensa máxima. Los resultados experimentales sugieren que el mecanismo de almacenamiento de experiencia de expertos propuesto mejora el rendimiento del algoritmo con menos tiempo de repetición de experiencia. Además, el algoritmo de decisión de maniobras propuesto identifica la política óptima para atacar a los VANT objetivo utilizando diferentes estrategias fijas.
Descripción
La tecnología de aprendizaje por refuerzo profundo aplicada a la toma de decisiones de maniobras en juegos aéreos tridimensionales de Vehículos Aéreos No Tripulados (VANT) a menudo resulta en una baja eficiencia de utilización de los datos de entrenamiento y dificultades en la convergencia del algoritmo. Para abordar estos problemas, este estudio propone un mecanismo de almacenamiento de experiencia de expertos que mejora el rendimiento del algoritmo con menos tiempo de repetición de experiencia. Basado en este mecanismo, se introduce un algoritmo de decisión de maniobras utilizando la Red Dueling Double Deep Q. Los experimentos de simulación demuestran que el mecanismo propuesto mejora significativamente el rendimiento del algoritmo al reducir la experiencia en un 81.3% en comparación con el mecanismo de repetición de experiencia priorizada, permitiendo que el agente VANT logre un mayor valor promedio de recompensa máxima. Los resultados experimentales sugieren que el mecanismo de almacenamiento de experiencia de expertos propuesto mejora el rendimiento del algoritmo con menos tiempo de repetición de experiencia. Además, el algoritmo de decisión de maniobras propuesto identifica la política óptima para atacar a los VANT objetivo utilizando diferentes estrategias fijas.