logo móvil
Contáctanos

Persecución Cooperativa de Múltiples UAV de un UAV Objetivo de Rápido Movimiento Basada en el Algoritmo GM-TD3

Autores: Zhang, Yaozhong; Ding, Meiyan; Yuan, Yao; Zhang, Jiandong; Yang, Qiming; Shi, Guoqing; Jiang, Frank; Lu, Meiqu

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Persecución Cooperativa de Múltiples UAV de un UAV Objetivo de Rápido Movimiento Basada en el Algoritmo GM-TD3


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Algoritmo propuesto
Múltiples UAVs
Persecución cooperativa
Algoritmo genético
Método de discrepancia máxima media
Eficiencia de entrenamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Recientemente, el desarrollo de múltiples UAV para perseguir cooperativamente un objetivo en movimiento rápido se ha convertido en un foco de investigación en el mundo actual. Aunque el aprendizaje por refuerzo profundo (DRL) ha logrado muchos avances en el juego de persecución de UAV, todavía existen algunos problemas como el espacio de parámetros de alta dimensión, la facilidad de caer en la optimización local, el largo tiempo de entrenamiento y la baja tasa de éxito en las tareas. Para resolver los problemas mencionados anteriormente, proponemos un algoritmo mejorado de gradiente de política determinista retrasado doble (TD3) que combina el algoritmo genético y el método de discrepancia máxima de media (GM-TD3) para la persecución cooperativa de objetivos de alta velocidad por múltiples UAV. En primer lugar, este artículo combina estrategias evolutivas basadas en GA con TD3 para generar redes de acción. Luego, para evitar la optimización local en el proceso de entrenamiento del algoritmo, se utiliza el método de diferencia máxima de media (MMD) para aumentar la diversidad de la población de políticas en el proceso de actualización de los parámetros de la población. Finalmente, al establecer los pesos de sensibilidad del buffer de memoria genética de los individuos UAV, se mejora el operador de mutación para aumentar la estabilidad del algoritmo. Además, este artículo diseña una función de recompensa híbrida para acelerar la velocidad de convergencia del entrenamiento. A través de experimentos de simulación, hemos verificado que la eficiencia de entrenamiento del algoritmo mejorado ha mejorado considerablemente, lo que puede lograr una convergencia más rápida; la tasa de éxito de la tarea ha alcanzado el 95%, y se ha validado que los UAV pueden cooperar mejor para completar la tarea del juego de persecución.

Otros recursos que podrían interesarte

Temas Virtualpro