Método de Asignación de Objetivos Cooperativos Multi-UAV Basado en Aprendizaje por Refuerzo
Autores: Ding, Yunlong; Kuang, Minchi; Shi, Heng; Gao, Jiazhan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Método de Asignación de Objetivos Cooperativos Multi-UAV Basado en Aprendizaje por Refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Algoritmos de asignación de objetivos
TAPPO
Evaluación de amenazas
Mecanismo de atención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Para superar los problemas de los algoritmos tradicionales de asignación de objetivos distribuidos en términos de falta de prioridad estratégica de los objetivos, mala escalabilidad y robustez, este documento propone un algoritmo de optimización de estrategia proximal que combina la evaluación de amenazas y el mecanismo de atención (TAPPO). Basado en el marco de entrenamiento distribuido, el algoritmo integra una evaluación de amenazas y una estrategia de atención dinámica y diseña una función de recompensa dinámica basada en la tasa de aciertos actual del dron y la relación de beneficios del misil para mejorar la capacidad de exploración y escalabilidad del algoritmo. A través de un experimento de confrontación multi-UAV 8vs8 en un entorno de simulación de gemelos digitales, los resultados muestran que el agente que utiliza el algoritmo TAPPO para la asignación de objetivos derrota a la máquina de estados con una tasa de victorias del 85% y es significativamente mejor que otros algoritmos de asignación de objetivos actuales, verificando la efectividad del algoritmo.
Descripción
Para superar los problemas de los algoritmos tradicionales de asignación de objetivos distribuidos en términos de falta de prioridad estratégica de los objetivos, mala escalabilidad y robustez, este documento propone un algoritmo de optimización de estrategia proximal que combina la evaluación de amenazas y el mecanismo de atención (TAPPO). Basado en el marco de entrenamiento distribuido, el algoritmo integra una evaluación de amenazas y una estrategia de atención dinámica y diseña una función de recompensa dinámica basada en la tasa de aciertos actual del dron y la relación de beneficios del misil para mejorar la capacidad de exploración y escalabilidad del algoritmo. A través de un experimento de confrontación multi-UAV 8vs8 en un entorno de simulación de gemelos digitales, los resultados muestran que el agente que utiliza el algoritmo TAPPO para la asignación de objetivos derrota a la máquina de estados con una tasa de victorias del 85% y es significativamente mejor que otros algoritmos de asignación de objetivos actuales, verificando la efectividad del algoritmo.