Asignación de potencia basada en multiagente profundo de políticas determinísticas para redes de comunicación acústica submarina
Autores: Geng, Xuan; Hui, Xinyu
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Asignación de potencia basada en multiagente profundo de políticas determinísticas para redes de comunicación acústica submarina
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje por refuerzo
Asignación de energía
Redes de comunicación acústica submarina
Gradiente de política determinista profunda multiagente
Proceso de decisión de Markov
Entrenamiento centralizado y ejecución distribuida
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Este artículo propone una asignación de energía basada en aprendizaje por refuerzo para redes de comunicación acústica submarina (UACNs). La función objetivo se formula como la maximización de la capacidad del canal bajo restricciones de potencia máxima y capacidad mínima del canal. Para resolver este problema, se introduce un enfoque de gradiente de política determinista profunda multiagente (MADDPG), donde cada nodo transmisor se considera un agente. Dada la definición de un modelo de proceso de decisión de Markov (MDP) para este problema, los agentes aprenden a maximizar colaborativamente la capacidad del canal mediante aprendizaje de gradiente de política determinista profunda (DDPG). Específicamente, la asignación de energía de cada agente se obtiene mediante un método de entrenamiento centralizado y ejecución distribuida (CTDE). Los resultados de la simulación muestran que la tasa de suma lograda por el algoritmo propuesto se aproxima a la del algoritmo de programación fraccional (FP) y mejora en al menos un 5% en comparación con el algoritmo de asignación de energía basado en DQN (red de aprendizaje profundo Q).
Descripción
Este artículo propone una asignación de energía basada en aprendizaje por refuerzo para redes de comunicación acústica submarina (UACNs). La función objetivo se formula como la maximización de la capacidad del canal bajo restricciones de potencia máxima y capacidad mínima del canal. Para resolver este problema, se introduce un enfoque de gradiente de política determinista profunda multiagente (MADDPG), donde cada nodo transmisor se considera un agente. Dada la definición de un modelo de proceso de decisión de Markov (MDP) para este problema, los agentes aprenden a maximizar colaborativamente la capacidad del canal mediante aprendizaje de gradiente de política determinista profunda (DDPG). Específicamente, la asignación de energía de cada agente se obtiene mediante un método de entrenamiento centralizado y ejecución distribuida (CTDE). Los resultados de la simulación muestran que la tasa de suma lograda por el algoritmo propuesto se aproxima a la del algoritmo de programación fraccional (FP) y mejora en al menos un 5% en comparación con el algoritmo de asignación de energía basado en DQN (red de aprendizaje profundo Q).