logo móvil
Contáctanos

Optimización de Trayectoria Tridimensional y Asignación de Recursos en un Sistema Multicast de Múltiples Vehículos Aéreos No Tripulados: Un Método de Aprendizaje por Refuerzo Multi-Agente

Autores: Wang, Dongyu; Liu, Yue; Yu, Hongda; Hou, Yanzhao

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Optimización de Trayectoria Tridimensional y Asignación de Recursos en un Sistema Multicast de Múltiples Vehículos Aéreos No Tripulados: Un Método de Aprendizaje por Refuerzo Multi-Agente


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículos aéreos no tripulados
Cobertura inalámbrica
Aprendizaje por refuerzo multiagente
Superficies reflectantes inteligentes
Consumo de energía
Tasa de transmisión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los vehículos aéreos no tripulados (VANT) pueden actuar como estaciones base aéreas móviles para mejorar la cobertura inalámbrica para usuarios en el borde con mala calidad de comunicación terrestre. Sin embargo, en entornos urbanos, el enlace entre los VANT y los usuarios en tierra puede ser bloqueado por obstáculos, especialmente cuando infraestructuras terrestres complicadas aumentan la probabilidad de enlaces fuera de línea de vista (NLoS). En este artículo, con el fin de mejorar el rendimiento promedio, proponemos un sistema de multicast multi-VANT, donde se utiliza un método de aprendizaje por refuerzo multi-agente para ayudar a los VANT a determinar la altitud y trayectoria óptimas. También se emplean superficies reflectantes inteligentes (IRS) para reflejar señales y resolver el problema de bloqueo. Además, dado que la energía a bordo del VANT es limitada, este artículo tiene como objetivo minimizar el consumo de energía de los VANT y maximizar la tasa de transmisión para los usuarios en el borde mediante la optimización conjunta de la trayectoria 3D de los VANT y la potencia de transmisión. En primer lugar, deducimos la capacidad del canal de los usuarios en tierra en diferentes grupos de multicast. Posteriormente, se utiliza el algoritmo K-medoids para el problema de agrupamiento de multicast de usuarios en el borde basado en los requisitos de tasa de transmisión. Luego, empleamos el algoritmo Multi-Agent Deep Deterministic Policy Gradient (MADDPG) para aprender una solución óptima y eliminar la no estacionariedad del entrenamiento multi-agente. Finalmente, los resultados de la simulación muestran que el sistema propuesto puede aumentar el rendimiento promedio en aproximadamente un 14% en comparación con el sistema sin agrupamiento, y el algoritmo MADDPG puede lograr una mejora del 20% en la reducción del consumo de energía de los VANT en comparación con los métodos tradicionales de aprendizaje por refuerzo profundo (DRL).

Otros recursos que podrían interesarte

Temas Virtualpro