Planificación de Rutas Multi-UAV para Comunicación de Relé Aire-Tierra Basada en el Algoritmo MAPPO Mix-Greedy
Autores: Wang, Yiquan; Cui, Yan; Yang, Yu; Li, Zhaodong; Cui, Xing
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Planificación de Rutas Multi-UAV para Comunicación de Relé Aire-Tierra Basada en el Algoritmo MAPPO Mix-Greedy
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Desarrollo
Tecnología de comunicación
Control de clúster de UAV
Planificación de rutas
Algoritmo Mix-Greedy MAPPO
Consumo de energía
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Con el desarrollo continuo de la tecnología moderna de UAV y la tecnología de comunicación, la comunicación de relé de UAV a tierra se ha convertido en un punto caliente de investigación. En este artículo, se propone un método de Aprendizaje por Refuerzo Multi-Agente (MARL) basado en la estrategia -codiciosa y el algoritmo de optimización de políticas proximales multi-agente (MAPPO) para abordar el problema de optimización local, mejorando la eficiencia de comunicación y la capacidad de ejecución de tareas del control de clústeres de UAV. Este artículo explora el problema de planificación de rutas en la comunicación de relé multi-UAV a tierra, con un enfoque especial en la aplicación del algoritmo Mix-Greedy MAPPO propuesto. El espacio de estado, el espacio de acción, el modelo de comunicación, el entorno de entrenamiento y la función de recompensa se diseñan considerando de manera integral las tareas reales y las características de las entidades, como la distancia segura, las zonas de exclusión aérea, la supervivencia en un entorno amenazado y el consumo de energía. Los resultados muestran que el algoritmo Mix-Greedy MAPPO mejora significativamente la probabilidad de comunicación, reduce el consumo de energía, evita las zonas de exclusión aérea y facilita la exploración en comparación con otros algoritmos en la tarea de planificación de rutas de comunicación de relé de tierra multi-UAV. Después de entrenar con el mismo número de pasos, el algoritmo Mix-Greedy MAPPO tiene una puntuación de recompensa promedio que es un 45.9% más alta que la del algoritmo MAPPO y varias veces más alta que los algoritmos de actor-crítico suave multi-agente (MASAC) y de gradiente de política determinista profunda multi-agente (MADDPG). Los resultados experimentales verifican la superioridad y adaptabilidad del algoritmo en entornos complejos.
Descripción
Con el desarrollo continuo de la tecnología moderna de UAV y la tecnología de comunicación, la comunicación de relé de UAV a tierra se ha convertido en un punto caliente de investigación. En este artículo, se propone un método de Aprendizaje por Refuerzo Multi-Agente (MARL) basado en la estrategia -codiciosa y el algoritmo de optimización de políticas proximales multi-agente (MAPPO) para abordar el problema de optimización local, mejorando la eficiencia de comunicación y la capacidad de ejecución de tareas del control de clústeres de UAV. Este artículo explora el problema de planificación de rutas en la comunicación de relé multi-UAV a tierra, con un enfoque especial en la aplicación del algoritmo Mix-Greedy MAPPO propuesto. El espacio de estado, el espacio de acción, el modelo de comunicación, el entorno de entrenamiento y la función de recompensa se diseñan considerando de manera integral las tareas reales y las características de las entidades, como la distancia segura, las zonas de exclusión aérea, la supervivencia en un entorno amenazado y el consumo de energía. Los resultados muestran que el algoritmo Mix-Greedy MAPPO mejora significativamente la probabilidad de comunicación, reduce el consumo de energía, evita las zonas de exclusión aérea y facilita la exploración en comparación con otros algoritmos en la tarea de planificación de rutas de comunicación de relé de tierra multi-UAV. Después de entrenar con el mismo número de pasos, el algoritmo Mix-Greedy MAPPO tiene una puntuación de recompensa promedio que es un 45.9% más alta que la del algoritmo MAPPO y varias veces más alta que los algoritmos de actor-crítico suave multi-agente (MASAC) y de gradiente de política determinista profunda multi-agente (MADDPG). Los resultados experimentales verifican la superioridad y adaptabilidad del algoritmo en entornos complejos.