Asignación de recursos en redes UAV-D2D: un enfoque escalable de aprendizaje profundo de refuerzo multiagente heterogéneo
Autores: Wang, Huayuan; Li, Hui; Wang, Xin; Xia, Shilin; Liu, Tao; Wang, Ruonan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Asignación de recursos en redes UAV-D2D: un enfoque escalable de aprendizaje profundo de refuerzo multiagente heterogéneo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Vehículo aéreo no tripulado
Redes de almacenamiento en caché de dispositivo a dispositivo
Aprendizaje profundo de refuerzo multiagente
Marco de actor-critic de campo medio
Problema de asignación de recursos
Probabilidad de acierto en caché
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
En las redes de almacenamiento en caché de dispositivo a dispositivo (D2D) asistidas por vehículos aéreos no tripulados (UAV), la incertidumbre de las demandas de contenido impredecibles y las posiciones variables de los usuarios plantea un desafío significativo para los métodos de optimización tradicionales, a menudo haciéndolos poco prácticos. El aprendizaje profundo de refuerzo multiagente (MADRL) ofrece ventajas significativas en la optimización de decisiones del sistema multiagente y sirve como una alternativa efectiva y práctica. Sin embargo, su aplicación en entornos dinámicos a gran escala está severamente limitada por la maldición de la dimensionalidad y la sobrecarga de comunicación. Para resolver este problema, desarrollamos un marco escalable heterogéneo de actor-crítico de campo medio multiagente (SH-MAMFAC). El marco trata a los usuarios terrestres (GUs) y a los UAV como agentes distintos y diseña recompensas cooperativas para convertir el problema de asignación de recursos en un juego completamente cooperativo, mejorando el rendimiento de la red global. También implementamos una estrategia de mapeo de acciones mixtas para manejar espacios de acción discretos y continuos. Se introduce un marco MADRL de campo medio para minimizar las cargas de entrenamiento de agentes individuales mientras se mejora la probabilidad total de aciertos en caché (CHP). Los resultados de la simulación muestran que nuestro algoritmo mejora CHP y reduce la demora de transmisión. Un análisis comparativo con los algoritmos de aprendizaje profundo de refuerzo (DRL) existentes muestra que SH-MAMFAC reduce significativamente el tiempo de entrenamiento y mantiene un alto CHP a medida que crece el recuento de GU. Además, al comparar con las variantes de SH-MAMFAC que no incluyen optimización de trayectoria o control de potencia, el esquema de diseño conjunto propuesto reduce significativamente la demora de transmisión.
Descripción
En las redes de almacenamiento en caché de dispositivo a dispositivo (D2D) asistidas por vehículos aéreos no tripulados (UAV), la incertidumbre de las demandas de contenido impredecibles y las posiciones variables de los usuarios plantea un desafío significativo para los métodos de optimización tradicionales, a menudo haciéndolos poco prácticos. El aprendizaje profundo de refuerzo multiagente (MADRL) ofrece ventajas significativas en la optimización de decisiones del sistema multiagente y sirve como una alternativa efectiva y práctica. Sin embargo, su aplicación en entornos dinámicos a gran escala está severamente limitada por la maldición de la dimensionalidad y la sobrecarga de comunicación. Para resolver este problema, desarrollamos un marco escalable heterogéneo de actor-crítico de campo medio multiagente (SH-MAMFAC). El marco trata a los usuarios terrestres (GUs) y a los UAV como agentes distintos y diseña recompensas cooperativas para convertir el problema de asignación de recursos en un juego completamente cooperativo, mejorando el rendimiento de la red global. También implementamos una estrategia de mapeo de acciones mixtas para manejar espacios de acción discretos y continuos. Se introduce un marco MADRL de campo medio para minimizar las cargas de entrenamiento de agentes individuales mientras se mejora la probabilidad total de aciertos en caché (CHP). Los resultados de la simulación muestran que nuestro algoritmo mejora CHP y reduce la demora de transmisión. Un análisis comparativo con los algoritmos de aprendizaje profundo de refuerzo (DRL) existentes muestra que SH-MAMFAC reduce significativamente el tiempo de entrenamiento y mantiene un alto CHP a medida que crece el recuento de GU. Además, al comparar con las variantes de SH-MAMFAC que no incluyen optimización de trayectoria o control de potencia, el esquema de diseño conjunto propuesto reduce significativamente la demora de transmisión.