5g multi-slices bi-level asignación de recursos por aprendizaje por refuerzo
Autores: Yu, Zhipeng; Gu, Fangqing; Liu, Hailin; Lai, Yutao
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
5g multi-slices bi-level asignación de recursos por aprendizaje por refuerzo
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Algoritmo propuesto
Asignación de recursos
Red 5G
Estructura jerárquica
Problema de optimización
Aprendizaje por refuerzo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Como la separación de la unidad centralizada (CU) - unidad distribuida (DU) en la red móvil de quinta generación (5G), el multi-corte y multi-escenario, se puede aplicar mejor en la comunicación inalámbrica. El desarrollo de la red 5G hacia industrias verticales hace que su asignación de recursos también tenga una estructura jerárquica obvia. En este documento, proponemos un modelo de asignación de recursos de dos niveles. El objetivo de nivel superior en este modelo se refiere al beneficio del operador 5G a través de la estación base asignando recursos a cortes. El objetivo de nivel inferior en este modelo se refiere a los cortes asignando el recurso a sus usuarios de manera justa. El problema de asignación de recursos es un problema de optimización complejo con variables mixtas discretas, por lo que si un algoritmo de asignación de recursos puede proporcionar rápidamente y con precisión el esquema de asignación de recursos es clave para su aplicación práctica. Según las características del problema, seleccionamos el gemelo de agente múltiple de política de gradiente determinístico profundo retrasado (MATD3) para resolver la asignación de recursos de corte superior y el gemelo de política de gradiente determinístico profundo retrasado discreto y continuo (DCTD3) para resolver la asignación de recursos de usuario inferior. Es crucial caracterizar con precisión el estado, el entorno y la recompensa del aprendizaje por refuerzo para resolver problemas prácticos. Por lo tanto, proporcionamos una definición efectiva del entorno, estado, acción y recompensa de MATD3 y DCTD3 para resolver el problema de asignación de recursos de dos niveles. Realizamos algunos experimentos de simulación y los comparamos con el algoritmo de gradiente determinístico profundo de múltiples agentes (MADDPG) y el algoritmo evolutivo de dos niveles anidado (NBLEA). Los resultados experimentales muestran que el algoritmo propuesto puede proporcionar rápidamente un mejor esquema de asignación de recursos.
Descripción
Como la separación de la unidad centralizada (CU) - unidad distribuida (DU) en la red móvil de quinta generación (5G), el multi-corte y multi-escenario, se puede aplicar mejor en la comunicación inalámbrica. El desarrollo de la red 5G hacia industrias verticales hace que su asignación de recursos también tenga una estructura jerárquica obvia. En este documento, proponemos un modelo de asignación de recursos de dos niveles. El objetivo de nivel superior en este modelo se refiere al beneficio del operador 5G a través de la estación base asignando recursos a cortes. El objetivo de nivel inferior en este modelo se refiere a los cortes asignando el recurso a sus usuarios de manera justa. El problema de asignación de recursos es un problema de optimización complejo con variables mixtas discretas, por lo que si un algoritmo de asignación de recursos puede proporcionar rápidamente y con precisión el esquema de asignación de recursos es clave para su aplicación práctica. Según las características del problema, seleccionamos el gemelo de agente múltiple de política de gradiente determinístico profundo retrasado (MATD3) para resolver la asignación de recursos de corte superior y el gemelo de política de gradiente determinístico profundo retrasado discreto y continuo (DCTD3) para resolver la asignación de recursos de usuario inferior. Es crucial caracterizar con precisión el estado, el entorno y la recompensa del aprendizaje por refuerzo para resolver problemas prácticos. Por lo tanto, proporcionamos una definición efectiva del entorno, estado, acción y recompensa de MATD3 y DCTD3 para resolver el problema de asignación de recursos de dos niveles. Realizamos algunos experimentos de simulación y los comparamos con el algoritmo de gradiente determinístico profundo de múltiples agentes (MADDPG) y el algoritmo evolutivo de dos niveles anidado (NBLEA). Los resultados experimentales muestran que el algoritmo propuesto puede proporcionar rápidamente un mejor esquema de asignación de recursos.