Aprendizaje por refuerzo basado en asignación de recursos y optimización de eficiencia energética para una red integrada espacio-aire-tierra
Autores: Chen, Zhiyu; Zhou, Hongxi; Du, Siyuan; Liu, Jiayan; Zhang, Luyang; Liu, Qi
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aprendizaje por refuerzo basado en asignación de recursos y optimización de eficiencia energética para una red integrada espacio-aire-tierra
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Construcción
Red inteligente
Capacidad de comunicación
Eficiencia energética
Problema de optimización
Aprendizaje por refuerzo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 45
Citaciones: Sin citaciones
Con la construcción y desarrollo de la red inteligente, el sector eléctrico pone mayores requisitos en la capacidad de comunicación de la red. Para mejorar la eficiencia energética de la red de comunicación de fusión tridimensional de energía espacio-aire-tierra integrada, establecemos un problema de optimización para la selección conjunta de la trayectoria de vuelo de la plataforma aérea (AP), la asociación de las instalaciones de energía en tierra (GPF) y el control de energía. Al resolver el problema, descomponemos el problema en dos subproblemas, uno es el subproblema de selección de la trayectoria de vuelo de AP y el otro es el subproblema de asociación de GPF y control de energía. Primero, basándonos en la distribución de GPF y los pesos de rendimiento, modelamos el subproblema de selección de la trayectoria de vuelo de AP como un Proceso de Decisión de Markov (MDP) y proponemos un algoritmo de optimización iterativa multiagente basado en el juicio integral de las posiciones de GPF y la carga de trabajo. En segundo lugar, modelamos el subproblema de asociación de GPF y control de energía como un modelo de bandas K de brazo variable en el tiempo y proponemos un algoritmo basado en el aprendizaje multiagente de Diferencia Temporal (TD). Luego, alternando entre los dos subproblemas, proponemos un algoritmo de optimización conjunto basado en el aprendizaje por refuerzo (RL). Finalmente, los resultados de la simulación indican que en comparación con los tres algoritmos base (trayectoria aleatoria, potencia de transmisión promedio y asociación aleatoria de dispositivos), el algoritmo propuesto mejora la eficiencia energética general del sistema en un 16.23%, 86.29% y 5.11% bajo diversas condiciones (incluyendo diferentes niveles de potencia de ruido, ancho de banda de GPF y cantidades de GPF), respectivamente.
Descripción
Con la construcción y desarrollo de la red inteligente, el sector eléctrico pone mayores requisitos en la capacidad de comunicación de la red. Para mejorar la eficiencia energética de la red de comunicación de fusión tridimensional de energía espacio-aire-tierra integrada, establecemos un problema de optimización para la selección conjunta de la trayectoria de vuelo de la plataforma aérea (AP), la asociación de las instalaciones de energía en tierra (GPF) y el control de energía. Al resolver el problema, descomponemos el problema en dos subproblemas, uno es el subproblema de selección de la trayectoria de vuelo de AP y el otro es el subproblema de asociación de GPF y control de energía. Primero, basándonos en la distribución de GPF y los pesos de rendimiento, modelamos el subproblema de selección de la trayectoria de vuelo de AP como un Proceso de Decisión de Markov (MDP) y proponemos un algoritmo de optimización iterativa multiagente basado en el juicio integral de las posiciones de GPF y la carga de trabajo. En segundo lugar, modelamos el subproblema de asociación de GPF y control de energía como un modelo de bandas K de brazo variable en el tiempo y proponemos un algoritmo basado en el aprendizaje multiagente de Diferencia Temporal (TD). Luego, alternando entre los dos subproblemas, proponemos un algoritmo de optimización conjunto basado en el aprendizaje por refuerzo (RL). Finalmente, los resultados de la simulación indican que en comparación con los tres algoritmos base (trayectoria aleatoria, potencia de transmisión promedio y asociación aleatoria de dispositivos), el algoritmo propuesto mejora la eficiencia energética general del sistema en un 16.23%, 86.29% y 5.11% bajo diversas condiciones (incluyendo diferentes niveles de potencia de ruido, ancho de banda de GPF y cantidades de GPF), respectivamente.