logo móvil
Contáctanos

Asignación de recursos en redes UAV-D2D: un enfoque escalable de aprendizaje profundo de refuerzo multiagente heterogéneo

Autores: Wang, Huayuan; Li, Hui; Wang, Xin; Xia, Shilin; Liu, Tao; Wang, Ruonan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Asignación de recursos en redes UAV-D2D: un enfoque escalable de aprendizaje profundo de refuerzo multiagente heterogéneo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Vehículo aéreo no tripulado
Redes de almacenamiento en caché de dispositivo a dispositivo
Aprendizaje profundo de refuerzo multiagente
Marco de actor-critic de campo medio
Problema de asignación de recursos
Probabilidad de acierto en caché

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 42

Citaciones: Sin citaciones


Descripción
En las redes de almacenamiento en caché de dispositivo a dispositivo (D2D) asistidas por vehículos aéreos no tripulados (UAV), la incertidumbre de las demandas de contenido impredecibles y las posiciones variables de los usuarios plantea un desafío significativo para los métodos de optimización tradicionales, a menudo haciéndolos poco prácticos. El aprendizaje profundo de refuerzo multiagente (MADRL) ofrece ventajas significativas en la optimización de decisiones del sistema multiagente y sirve como una alternativa efectiva y práctica. Sin embargo, su aplicación en entornos dinámicos a gran escala está severamente limitada por la maldición de la dimensionalidad y la sobrecarga de comunicación. Para resolver este problema, desarrollamos un marco escalable heterogéneo de actor-crítico de campo medio multiagente (SH-MAMFAC). El marco trata a los usuarios terrestres (GUs) y a los UAV como agentes distintos y diseña recompensas cooperativas para convertir el problema de asignación de recursos en un juego completamente cooperativo, mejorando el rendimiento de la red global. También implementamos una estrategia de mapeo de acciones mixtas para manejar espacios de acción discretos y continuos. Se introduce un marco MADRL de campo medio para minimizar las cargas de entrenamiento de agentes individuales mientras se mejora la probabilidad total de aciertos en caché (CHP). Los resultados de la simulación muestran que nuestro algoritmo mejora CHP y reduce la demora de transmisión. Un análisis comparativo con los algoritmos de aprendizaje profundo de refuerzo (DRL) existentes muestra que SH-MAMFAC reduce significativamente el tiempo de entrenamiento y mantiene un alto CHP a medida que crece el recuento de GU. Además, al comparar con las variantes de SH-MAMFAC que no incluyen optimización de trayectoria o control de potencia, el esquema de diseño conjunto propuesto reduce significativamente la demora de transmisión.

Otros recursos que podrían interesarte

Temas Virtualpro