Aprendizaje por Refuerzo Profundo Multi-Agente para el Enrutamiento Consciente del Código y Balanceado en Energía en Redes de Drones Dinámicas
Autores: Wu, Yuhao; Qiu, Xiulin; Song, Bo; Ke, Yaqi; Xu, Lei; Yang, Yuwang
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Aprendizaje por Refuerzo Profundo Multi-Agente para el Enrutamiento Consciente del Código y Balanceado en Energía en Redes de Drones Dinámicas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Codificación oportunista
Rendimiento de red
FANETS
MADDPG
Protocolo de enrutamiento
UAVs
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Al incorporar codificación oportunista, se mejora el rendimiento general al aumentar el rendimiento de la red. Sin embargo, aplicar este paradigma a las Redes Aéreas Ad-hoc Voladoras (FANETS) enfrenta desafíos significativos debido a la topología altamente dinámica causada por la movilidad de alta velocidad de los UAV, junto con la complejidad NP-dura de identificar oportunidades de codificación óptimas en arquitecturas de red aérea que evolucionan rápidamente. Para abordar estos desafíos, este documento propone un nuevo protocolo de enrutamiento consciente de la codificación basado en el Gradiente de Política Determinista Profunda Multi-Agente (MADDPG). Formulamos el problema de enrutamiento como un proceso de toma de decisiones continuas multi-agente, empleando el algoritmo MADDPG para optimizar las políticas de enrutamiento en tiempo real a través de una ejecución descentralizada y un entrenamiento centralizado. Para maximizar la utilidad de la red, diseñamos una función de recompensa integral que integra los beneficios de codificación, el rendimiento, la distribución de energía y el retraso de extremo a extremo, asegurando un equilibrio entre la maximización del rendimiento y la sostenibilidad energética de los nodos UAV individuales. Los resultados de la simulación demuestran que el protocolo propuesto supera significativamente a los protocolos de enrutamiento conscientes de la codificación de última generación en términos de rendimiento, Tasa de Entrega de Paquetes (PDR) y retraso de transmisión, exhibiendo una robustez superior en escenarios FANET altamente dinámicos. Notablemente, con una densidad de red de 20 UAV, MARL-CAR supera a COPE, DCAR, TSCAR y RLCAR en términos de ratio de codificación en un 32.23%, 18.93%, 20.35% y 5.5%, respectivamente. Esta investigación proporciona una solución de red escalable e inteligente para la próxima generación de enjambres de UAV autónomos y misiones aéreas colaborativas.
Descripción
Al incorporar codificación oportunista, se mejora el rendimiento general al aumentar el rendimiento de la red. Sin embargo, aplicar este paradigma a las Redes Aéreas Ad-hoc Voladoras (FANETS) enfrenta desafíos significativos debido a la topología altamente dinámica causada por la movilidad de alta velocidad de los UAV, junto con la complejidad NP-dura de identificar oportunidades de codificación óptimas en arquitecturas de red aérea que evolucionan rápidamente. Para abordar estos desafíos, este documento propone un nuevo protocolo de enrutamiento consciente de la codificación basado en el Gradiente de Política Determinista Profunda Multi-Agente (MADDPG). Formulamos el problema de enrutamiento como un proceso de toma de decisiones continuas multi-agente, empleando el algoritmo MADDPG para optimizar las políticas de enrutamiento en tiempo real a través de una ejecución descentralizada y un entrenamiento centralizado. Para maximizar la utilidad de la red, diseñamos una función de recompensa integral que integra los beneficios de codificación, el rendimiento, la distribución de energía y el retraso de extremo a extremo, asegurando un equilibrio entre la maximización del rendimiento y la sostenibilidad energética de los nodos UAV individuales. Los resultados de la simulación demuestran que el protocolo propuesto supera significativamente a los protocolos de enrutamiento conscientes de la codificación de última generación en términos de rendimiento, Tasa de Entrega de Paquetes (PDR) y retraso de transmisión, exhibiendo una robustez superior en escenarios FANET altamente dinámicos. Notablemente, con una densidad de red de 20 UAV, MARL-CAR supera a COPE, DCAR, TSCAR y RLCAR en términos de ratio de codificación en un 32.23%, 18.93%, 20.35% y 5.5%, respectivamente. Esta investigación proporciona una solución de red escalable e inteligente para la próxima generación de enjambres de UAV autónomos y misiones aéreas colaborativas.