Optimización de Trayectoria Tridimensional y Asignación de Recursos en un Sistema Multicast de Múltiples Vehículos Aéreos No Tripulados: Un Método de Aprendizaje por Refuerzo Multi-Agente
Autores: Wang, Dongyu; Liu, Yue; Yu, Hongda; Hou, Yanzhao
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Optimización de Trayectoria Tridimensional y Asignación de Recursos en un Sistema Multicast de Múltiples Vehículos Aéreos No Tripulados: Un Método de Aprendizaje por Refuerzo Multi-Agente
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículos aéreos no tripulados
Cobertura inalámbrica
Aprendizaje por refuerzo multiagente
Superficies reflectantes inteligentes
Consumo de energía
Tasa de transmisión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los vehículos aéreos no tripulados (VANT) pueden actuar como estaciones base aéreas móviles para mejorar la cobertura inalámbrica para usuarios en el borde con mala calidad de comunicación terrestre. Sin embargo, en entornos urbanos, el enlace entre los VANT y los usuarios en tierra puede ser bloqueado por obstáculos, especialmente cuando infraestructuras terrestres complicadas aumentan la probabilidad de enlaces fuera de línea de vista (NLoS). En este artículo, con el fin de mejorar el rendimiento promedio, proponemos un sistema de multicast multi-VANT, donde se utiliza un método de aprendizaje por refuerzo multi-agente para ayudar a los VANT a determinar la altitud y trayectoria óptimas. También se emplean superficies reflectantes inteligentes (IRS) para reflejar señales y resolver el problema de bloqueo. Además, dado que la energía a bordo del VANT es limitada, este artículo tiene como objetivo minimizar el consumo de energía de los VANT y maximizar la tasa de transmisión para los usuarios en el borde mediante la optimización conjunta de la trayectoria 3D de los VANT y la potencia de transmisión. En primer lugar, deducimos la capacidad del canal de los usuarios en tierra en diferentes grupos de multicast. Posteriormente, se utiliza el algoritmo K-medoids para el problema de agrupamiento de multicast de usuarios en el borde basado en los requisitos de tasa de transmisión. Luego, empleamos el algoritmo Multi-Agent Deep Deterministic Policy Gradient (MADDPG) para aprender una solución óptima y eliminar la no estacionariedad del entrenamiento multi-agente. Finalmente, los resultados de la simulación muestran que el sistema propuesto puede aumentar el rendimiento promedio en aproximadamente un 14% en comparación con el sistema sin agrupamiento, y el algoritmo MADDPG puede lograr una mejora del 20% en la reducción del consumo de energía de los VANT en comparación con los métodos tradicionales de aprendizaje por refuerzo profundo (DRL).
Descripción
Los vehículos aéreos no tripulados (VANT) pueden actuar como estaciones base aéreas móviles para mejorar la cobertura inalámbrica para usuarios en el borde con mala calidad de comunicación terrestre. Sin embargo, en entornos urbanos, el enlace entre los VANT y los usuarios en tierra puede ser bloqueado por obstáculos, especialmente cuando infraestructuras terrestres complicadas aumentan la probabilidad de enlaces fuera de línea de vista (NLoS). En este artículo, con el fin de mejorar el rendimiento promedio, proponemos un sistema de multicast multi-VANT, donde se utiliza un método de aprendizaje por refuerzo multi-agente para ayudar a los VANT a determinar la altitud y trayectoria óptimas. También se emplean superficies reflectantes inteligentes (IRS) para reflejar señales y resolver el problema de bloqueo. Además, dado que la energía a bordo del VANT es limitada, este artículo tiene como objetivo minimizar el consumo de energía de los VANT y maximizar la tasa de transmisión para los usuarios en el borde mediante la optimización conjunta de la trayectoria 3D de los VANT y la potencia de transmisión. En primer lugar, deducimos la capacidad del canal de los usuarios en tierra en diferentes grupos de multicast. Posteriormente, se utiliza el algoritmo K-medoids para el problema de agrupamiento de multicast de usuarios en el borde basado en los requisitos de tasa de transmisión. Luego, empleamos el algoritmo Multi-Agent Deep Deterministic Policy Gradient (MADDPG) para aprender una solución óptima y eliminar la no estacionariedad del entrenamiento multi-agente. Finalmente, los resultados de la simulación muestran que el sistema propuesto puede aumentar el rendimiento promedio en aproximadamente un 14% en comparación con el sistema sin agrupamiento, y el algoritmo MADDPG puede lograr una mejora del 20% en la reducción del consumo de energía de los VANT en comparación con los métodos tradicionales de aprendizaje por refuerzo profundo (DRL).