Toma de decisiones de maniobra en juegos aéreos de UAV utilizando una red Q doble profunda en duelo con un mecanismo de almacenamiento de experiencia de expertos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Toma de decisiones de maniobra en juegos aéreos de UAV utilizando una red Q doble profunda en duelo con un mecanismo de almacenamiento de experiencia de expertos

Autores: Zhang, Jiahui; Meng, Zhijun; He, Jiazheng; Wang, Zichen; Liu, Lulu

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Toma de decisiones de maniobra en juegos aéreos de UAV utilizando una red Q doble profunda en duelo con un mecanismo de almacenamiento de experiencia de expertos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo

Tridimensional

Vehículo Aéreo No Tripulado

Convergencia de algoritmos

Repetición de experiencias

Dueling Double Deep Q Network

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La tecnología de aprendizaje por refuerzo profundo aplicada a la toma de decisiones de maniobras en juegos aéreos tridimensionales de Vehículos Aéreos No Tripulados (VANT) a menudo resulta en una baja eficiencia de utilización de los datos de entrenamiento y dificultades en la convergencia del algoritmo. Para abordar estos problemas, este estudio propone un mecanismo de almacenamiento de experiencia de expertos que mejora el rendimiento del algoritmo con menos tiempo de repetición de experiencia. Basado en este mecanismo, se introduce un algoritmo de decisión de maniobras utilizando la Red Dueling Double Deep Q. Los experimentos de simulación demuestran que el mecanismo propuesto mejora significativamente el rendimiento del algoritmo al reducir la experiencia en un 81.3% en comparación con el mecanismo de repetición de experiencia priorizada, permitiendo que el agente VANT logre un mayor valor promedio de recompensa máxima. Los resultados experimentales sugieren que el mecanismo de almacenamiento de experiencia de expertos propuesto mejora el rendimiento del algoritmo con menos tiempo de repetición de experiencia. Además, el algoritmo de decisión de maniobras propuesto identifica la política óptima para atacar a los VANT objetivo utilizando diferentes estrategias fijas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro