logo móvil
Contáctanos

Toma de decisiones de maniobra en juegos aéreos de UAV utilizando una red Q doble profunda en duelo con un mecanismo de almacenamiento de experiencia de expertos

Autores: Zhang, Jiahui; Meng, Zhijun; He, Jiazheng; Wang, Zichen; Liu, Lulu

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Toma de decisiones de maniobra en juegos aéreos de UAV utilizando una red Q doble profunda en duelo con un mecanismo de almacenamiento de experiencia de expertos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo
Tridimensional
Vehículo Aéreo No Tripulado
Convergencia de algoritmos
Repetición de experiencias
Dueling Double Deep Q Network

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La tecnología de aprendizaje por refuerzo profundo aplicada a la toma de decisiones de maniobras en juegos aéreos tridimensionales de Vehículos Aéreos No Tripulados (VANT) a menudo resulta en una baja eficiencia de utilización de los datos de entrenamiento y dificultades en la convergencia del algoritmo. Para abordar estos problemas, este estudio propone un mecanismo de almacenamiento de experiencia de expertos que mejora el rendimiento del algoritmo con menos tiempo de repetición de experiencia. Basado en este mecanismo, se introduce un algoritmo de decisión de maniobras utilizando la Red Dueling Double Deep Q. Los experimentos de simulación demuestran que el mecanismo propuesto mejora significativamente el rendimiento del algoritmo al reducir la experiencia en un 81.3% en comparación con el mecanismo de repetición de experiencia priorizada, permitiendo que el agente VANT logre un mayor valor promedio de recompensa máxima. Los resultados experimentales sugieren que el mecanismo de almacenamiento de experiencia de expertos propuesto mejora el rendimiento del algoritmo con menos tiempo de repetición de experiencia. Además, el algoritmo de decisión de maniobras propuesto identifica la política óptima para atacar a los VANT objetivo utilizando diferentes estrategias fijas.

Otros recursos que podrían interesarte

Temas Virtualpro