logo móvil
Contáctanos

Planificación de Rutas Multi-UAV para Comunicación de Relé Aire-Tierra Basada en el Algoritmo MAPPO Mix-Greedy

Autores: Wang, Yiquan; Cui, Yan; Yang, Yu; Li, Zhaodong; Cui, Xing

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Planificación de Rutas Multi-UAV para Comunicación de Relé Aire-Tierra Basada en el Algoritmo MAPPO Mix-Greedy


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Desarrollo
Tecnología de comunicación
Control de clúster de UAV
Planificación de rutas
Algoritmo Mix-Greedy MAPPO
Consumo de energía

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Con el desarrollo continuo de la tecnología moderna de UAV y la tecnología de comunicación, la comunicación de relé de UAV a tierra se ha convertido en un punto caliente de investigación. En este artículo, se propone un método de Aprendizaje por Refuerzo Multi-Agente (MARL) basado en la estrategia -codiciosa y el algoritmo de optimización de políticas proximales multi-agente (MAPPO) para abordar el problema de optimización local, mejorando la eficiencia de comunicación y la capacidad de ejecución de tareas del control de clústeres de UAV. Este artículo explora el problema de planificación de rutas en la comunicación de relé multi-UAV a tierra, con un enfoque especial en la aplicación del algoritmo Mix-Greedy MAPPO propuesto. El espacio de estado, el espacio de acción, el modelo de comunicación, el entorno de entrenamiento y la función de recompensa se diseñan considerando de manera integral las tareas reales y las características de las entidades, como la distancia segura, las zonas de exclusión aérea, la supervivencia en un entorno amenazado y el consumo de energía. Los resultados muestran que el algoritmo Mix-Greedy MAPPO mejora significativamente la probabilidad de comunicación, reduce el consumo de energía, evita las zonas de exclusión aérea y facilita la exploración en comparación con otros algoritmos en la tarea de planificación de rutas de comunicación de relé de tierra multi-UAV. Después de entrenar con el mismo número de pasos, el algoritmo Mix-Greedy MAPPO tiene una puntuación de recompensa promedio que es un 45.9% más alta que la del algoritmo MAPPO y varias veces más alta que los algoritmos de actor-crítico suave multi-agente (MASAC) y de gradiente de política determinista profunda multi-agente (MADDPG). Los resultados experimentales verifican la superioridad y adaptabilidad del algoritmo en entornos complejos.

Otros recursos que podrían interesarte

Temas Virtualpro