MA-PF-AD3PG: Un algoritmo de DRL multiagente para la minimización de la latencia y la optimización de la equidad en sistemas MEC asistidos por UAV orientados a IoV en 6G
Autores: Wang, Yitian; Wang, Hui; Yu, Haibin
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
MA-PF-AD3PG: Un algoritmo de DRL multiagente para la minimización de la latencia y la optimización de la equidad en sistemas MEC asistidos por UAV orientados a IoV en 6G
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Proliferación rápida
Vehículos autónomos
Computación en el Borde Móvil
Internet de los Vehículos
Equidad Basada en Prioridades de Múltiples Agentes
Gradiente de Política Determinista Profunda
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La rápida proliferación de vehículos conectados y autónomos en la era del 6G exige una computación ultra confiable y de baja latencia con una coordinación inteligente de recursos. La Computación en el Borde Móvil (MEC) asistida por Vehículos Aéreos No Tripulados (UAV) proporciona una solución flexible y escalable para extender la cobertura y mejorar la eficiencia de descarga en entornos dinámicos de Internet de los Vehículos (IoV). Sin embargo, optimizar conjuntamente la latencia de las tareas, la equidad del usuario y la prioridad del servicio bajo condiciones de canal variables en el tiempo sigue siendo un desafío fundamental. Para abordar este problema, este documento propone un novedoso algoritmo de Gradiente de Política Determinista Profunda Adaptativa con Prioridad Basada en la Equidad (MA-PF-AD3PG) para sistemas MEC asistidos por UAV. Primero se establece un modelo de plazo dinámico consciente de la oclusión para capturar el bloqueo de enlaces en tiempo real y la atenuación del canal. Basado en este modelo, se formula un marco de optimización acoplado de prioridad y equidad para minimizar conjuntamente la latencia total y equilibrar la equidad del servicio entre tareas vehiculares heterogéneas. Para resolver eficientemente este problema NP-duro, el MA-PF-AD3PG propuesto integra un preprocesamiento de servicio consciente de la equidad y un mecanismo de actualización retrasada adaptativa dentro de una estructura de aprendizaje por refuerzo profundo multi-agente, lo que permite una toma de decisiones descentralizada pero coordinada de los UAV. Simulaciones extensivas demuestran que el MA-PF-AD3PG logra una estabilidad de convergencia superior, recompensas totales de 13-57% más altas, hasta un 46% menos de retraso y una equidad casi perfecta en comparación con los métodos de Aprendizaje por Refuerzo Profundo (DRL) y heurísticos de última generación.
Descripción
La rápida proliferación de vehículos conectados y autónomos en la era del 6G exige una computación ultra confiable y de baja latencia con una coordinación inteligente de recursos. La Computación en el Borde Móvil (MEC) asistida por Vehículos Aéreos No Tripulados (UAV) proporciona una solución flexible y escalable para extender la cobertura y mejorar la eficiencia de descarga en entornos dinámicos de Internet de los Vehículos (IoV). Sin embargo, optimizar conjuntamente la latencia de las tareas, la equidad del usuario y la prioridad del servicio bajo condiciones de canal variables en el tiempo sigue siendo un desafío fundamental. Para abordar este problema, este documento propone un novedoso algoritmo de Gradiente de Política Determinista Profunda Adaptativa con Prioridad Basada en la Equidad (MA-PF-AD3PG) para sistemas MEC asistidos por UAV. Primero se establece un modelo de plazo dinámico consciente de la oclusión para capturar el bloqueo de enlaces en tiempo real y la atenuación del canal. Basado en este modelo, se formula un marco de optimización acoplado de prioridad y equidad para minimizar conjuntamente la latencia total y equilibrar la equidad del servicio entre tareas vehiculares heterogéneas. Para resolver eficientemente este problema NP-duro, el MA-PF-AD3PG propuesto integra un preprocesamiento de servicio consciente de la equidad y un mecanismo de actualización retrasada adaptativa dentro de una estructura de aprendizaje por refuerzo profundo multi-agente, lo que permite una toma de decisiones descentralizada pero coordinada de los UAV. Simulaciones extensivas demuestran que el MA-PF-AD3PG logra una estabilidad de convergencia superior, recompensas totales de 13-57% más altas, hasta un 46% menos de retraso y una equidad casi perfecta en comparación con los métodos de Aprendizaje por Refuerzo Profundo (DRL) y heurísticos de última generación.