Caché conjunto y computación en redes de vehículos asistidas por UAV a través de aprendizaje profundo por refuerzo multiagente
Autores: Wu, Yuhua; Huang, Yuchao; Wang, Ziyou; Xu, Changming
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Caché conjunto y computación en redes de vehículos asistidas por UAV a través de aprendizaje profundo por refuerzo multiagente
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículos conectados inteligentes
Servicios computacionales en tiempo real
Vehículo aéreo no tripulado
Computación en el borde móvil
Eficiencia del sistema
Aprendizaje por refuerzo profundo multiagente
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los Vehículos Conectados Inteligentes (ICVs) imponen requisitos estrictos en los servicios computacionales en tiempo real. Sin embargo, los recursos limitados a bordo y la alta latencia de los servidores en la nube remota restringen las soluciones tradicionales. La Computación en el Borde Móvil (MEC) asistida por Vehículos Aéreos No Tripulados (UAV), que despliega recursos de computación y almacenamiento en el borde de la red, ofrece una solución prometedora. En las redes vehiculares asistidas por UAV, optimizar conjuntamente la caché de contenido y servicios, la descarga de computación y las trayectorias de los UAV para maximizar el rendimiento del sistema es un desafío crítico. Esto requiere equilibrar el consumo de energía del sistema y la equidad en la asignación de recursos, mientras se maximiza la tasa de aciertos de caché y se minimiza la latencia de las tareas. Con este fin, introducimos la eficiencia del sistema como una métrica unificada, con el objetivo de maximizar el rendimiento general del sistema a través de la optimización conjunta. Esta métrica considera de manera integral la tasa de aciertos de caché, la latencia de computación de tareas, el consumo de energía del sistema y la equidad en la asignación de recursos. El problema implica decisiones discretas (caché, descarga) y variables continuas (trayectorias de UAV), exhibiendo un alto dinamismo y no convexidad, lo que lo hace desafiante para los métodos de optimización tradicionales. Al mismo tiempo, los métodos existentes de aprendizaje por refuerzo profundo multiagente (MADRL) a menudo enfrentan inestabilidad en el entrenamiento y problemas de convergencia en tales entornos dinámicos y no estacionarios. Para abordar estos desafíos, este documento propone un enfoque de optimización conjunta basado en MADRL. Modelamos el problema como un Proceso de Decisión de Markov Parcialmente Observable Descentralizado (Dec-POMDP) y adoptamos el algoritmo de Optimización de Políticas Proximales Multiagente (MAPPO), que sigue el paradigma de Entrenamiento Centralizado y Ejecución Descentralizada (CTDE). Nuestro método tiene como objetivo maximizar la eficiencia del sistema logrando un equilibrio juicioso entre múltiples métricas de rendimiento, como la tasa de aciertos de caché, el retraso de tareas, el consumo de energía y la equidad. Los resultados de simulación demuestran que, en comparación con varios métodos de referencia representativos, el algoritmo MAPPO propuesto exhibe una superioridad significativa al lograr mayores recompensas acumulativas y una tasa de aciertos de caché de aproximadamente el 82%.
Descripción
Los Vehículos Conectados Inteligentes (ICVs) imponen requisitos estrictos en los servicios computacionales en tiempo real. Sin embargo, los recursos limitados a bordo y la alta latencia de los servidores en la nube remota restringen las soluciones tradicionales. La Computación en el Borde Móvil (MEC) asistida por Vehículos Aéreos No Tripulados (UAV), que despliega recursos de computación y almacenamiento en el borde de la red, ofrece una solución prometedora. En las redes vehiculares asistidas por UAV, optimizar conjuntamente la caché de contenido y servicios, la descarga de computación y las trayectorias de los UAV para maximizar el rendimiento del sistema es un desafío crítico. Esto requiere equilibrar el consumo de energía del sistema y la equidad en la asignación de recursos, mientras se maximiza la tasa de aciertos de caché y se minimiza la latencia de las tareas. Con este fin, introducimos la eficiencia del sistema como una métrica unificada, con el objetivo de maximizar el rendimiento general del sistema a través de la optimización conjunta. Esta métrica considera de manera integral la tasa de aciertos de caché, la latencia de computación de tareas, el consumo de energía del sistema y la equidad en la asignación de recursos. El problema implica decisiones discretas (caché, descarga) y variables continuas (trayectorias de UAV), exhibiendo un alto dinamismo y no convexidad, lo que lo hace desafiante para los métodos de optimización tradicionales. Al mismo tiempo, los métodos existentes de aprendizaje por refuerzo profundo multiagente (MADRL) a menudo enfrentan inestabilidad en el entrenamiento y problemas de convergencia en tales entornos dinámicos y no estacionarios. Para abordar estos desafíos, este documento propone un enfoque de optimización conjunta basado en MADRL. Modelamos el problema como un Proceso de Decisión de Markov Parcialmente Observable Descentralizado (Dec-POMDP) y adoptamos el algoritmo de Optimización de Políticas Proximales Multiagente (MAPPO), que sigue el paradigma de Entrenamiento Centralizado y Ejecución Descentralizada (CTDE). Nuestro método tiene como objetivo maximizar la eficiencia del sistema logrando un equilibrio juicioso entre múltiples métricas de rendimiento, como la tasa de aciertos de caché, el retraso de tareas, el consumo de energía y la equidad. Los resultados de simulación demuestran que, en comparación con varios métodos de referencia representativos, el algoritmo MAPPO propuesto exhibe una superioridad significativa al lograr mayores recompensas acumulativas y una tasa de aciertos de caché de aproximadamente el 82%.