Control de Trayectoria Dinámica y Asociación de Usuarios para la Computación en el Borde Móvil Asistida por Vehículos Aéreos No Tripulados: Un Enfoque de Aprendizaje por Refuerzo Profundo
Autores: Wang, Libo; Zhang, Xiangyin; Qin, Kaiyu; Wang, Zhuwei; Yin, Hang; Zhou, Jiayi; Song, Deyu
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Control de Trayectoria Dinámica y Asociación de Usuarios para la Computación en el Borde Móvil Asistida por Vehículos Aéreos No Tripulados: Un Enfoque de Aprendizaje por Refuerzo Profundo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Computación en el borde móvil
MEC asistido por UAV
Entornos dinámicos
Control de trayectoria de vuelo
Asociación de usuarios
Algoritmo PPO-DC
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La computación en el borde móvil (MEC) se ha convertido en un marco efectivo para aplicaciones sensibles a la latencia y que requieren mucha computación al desplegar recursos informáticos en el borde de la red. La MEC asistida por vehículos aéreos no tripulados (UAV) aprovecha la movilidad y las ventajas de comunicación de los UAV para habilitar servicios en entornos dinámicos, donde se requieren ajustes frecuentes en las trayectorias de vuelo y la asociación de usuarios debido a factores dinámicos como los requisitos de tareas que varían con el tiempo, la movilidad del usuario y la variación del entorno de comunicación. Este artículo aborda el problema de optimización conjunta del control de la trayectoria de vuelo del UAV y la asociación de usuarios en entornos dinámicos, que incorpora explícitamente las restricciones gobernadas por la dinámica de vuelo del UAV. El problema conjunto se formula como una formulación de optimización no convexa que involucra variables de decisión híbridas continuas-discretas. Para superar la complejidad inherente de este problema, se desarrolla un nuevo algoritmo de control dinámico basado en optimización de políticas proximales (PPO-DC). Este algoritmo tiene como objetivo reducir la combinación ponderada de retraso y consumo de energía al controlar dinámicamente la trayectoria del UAV y la asociación de usuarios. Los resultados numéricos validan que el algoritmo PPO-DC permite con éxito el control de la trayectoria del UAV en tiempo real bajo las restricciones de dinámica de vuelo, asegurando una trayectoria de vuelo factible y eficiente. En comparación con los algoritmos de aprendizaje por refuerzo profundo (DRL) de acción híbrida de última generación o metaheurísticas, el PPO-DC logra mejoras notables en el rendimiento del sistema al reducir simultáneamente el retraso del sistema y el consumo de energía.
Descripción
La computación en el borde móvil (MEC) se ha convertido en un marco efectivo para aplicaciones sensibles a la latencia y que requieren mucha computación al desplegar recursos informáticos en el borde de la red. La MEC asistida por vehículos aéreos no tripulados (UAV) aprovecha la movilidad y las ventajas de comunicación de los UAV para habilitar servicios en entornos dinámicos, donde se requieren ajustes frecuentes en las trayectorias de vuelo y la asociación de usuarios debido a factores dinámicos como los requisitos de tareas que varían con el tiempo, la movilidad del usuario y la variación del entorno de comunicación. Este artículo aborda el problema de optimización conjunta del control de la trayectoria de vuelo del UAV y la asociación de usuarios en entornos dinámicos, que incorpora explícitamente las restricciones gobernadas por la dinámica de vuelo del UAV. El problema conjunto se formula como una formulación de optimización no convexa que involucra variables de decisión híbridas continuas-discretas. Para superar la complejidad inherente de este problema, se desarrolla un nuevo algoritmo de control dinámico basado en optimización de políticas proximales (PPO-DC). Este algoritmo tiene como objetivo reducir la combinación ponderada de retraso y consumo de energía al controlar dinámicamente la trayectoria del UAV y la asociación de usuarios. Los resultados numéricos validan que el algoritmo PPO-DC permite con éxito el control de la trayectoria del UAV en tiempo real bajo las restricciones de dinámica de vuelo, asegurando una trayectoria de vuelo factible y eficiente. En comparación con los algoritmos de aprendizaje por refuerzo profundo (DRL) de acción híbrida de última generación o metaheurísticas, el PPO-DC logra mejoras notables en el rendimiento del sistema al reducir simultáneamente el retraso del sistema y el consumo de energía.