Un enfoque de asignación de recursos de transpondedor basado en DQN de múltiples ramas para comunicaciones satelitales
Autores: Sun, Wenyu; Zhang, Weijia; Ma, Ning; Jia, Min
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un enfoque de asignación de recursos de transpondedor basado en DQN de múltiples ramas para comunicaciones satelitales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Propuesto
Aprendizaje por refuerzo
Algoritmos de asignación de recursos satelitales
MBDQN
Ocupación de recursos
Selección de tareas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
A la luz de la creciente escasez de recursos de espectro de frecuencia para sistemas de comunicación por satélite basados en el transpondedor transparente, los algoritmos de asignación de recursos satelitales rápidos y eficientes se han vuelto clave para mejorar la ocupación general de recursos. En este documento, proponemos un Multi-Branch Deep Q-Network (MBDQN) basado en aprendizaje por refuerzo, que introduce TL-Branch y RP-Branch para extraer características del estado del conjunto de recursos satelitales y del estado de la tarea simultáneamente, y Value-Branch para calcular la función de valor de acción. Por un lado, MBDQN mejora el rendimiento promedio de ocupación de recursos (AOP) a través de la selección de múltiples acciones, incluyendo la selección de tareas y acciones de prioridad de recursos. Por otro lado, el MBDQN entrenado es más adecuado para implementación en línea y reduce significativamente los costos de tiempo de ejecución debido a que MBDQN no necesita iteración en la fase de prueba. Experimentos en conjuntos de datos tanto de desperdicio no nulo como de desperdicio nulo demuestran que nuestro método propuesto logra un rendimiento superior en comparación con los métodos codiciosos o heurísticos en los conjuntos de datos de tareas generadas.
Descripción
A la luz de la creciente escasez de recursos de espectro de frecuencia para sistemas de comunicación por satélite basados en el transpondedor transparente, los algoritmos de asignación de recursos satelitales rápidos y eficientes se han vuelto clave para mejorar la ocupación general de recursos. En este documento, proponemos un Multi-Branch Deep Q-Network (MBDQN) basado en aprendizaje por refuerzo, que introduce TL-Branch y RP-Branch para extraer características del estado del conjunto de recursos satelitales y del estado de la tarea simultáneamente, y Value-Branch para calcular la función de valor de acción. Por un lado, MBDQN mejora el rendimiento promedio de ocupación de recursos (AOP) a través de la selección de múltiples acciones, incluyendo la selección de tareas y acciones de prioridad de recursos. Por otro lado, el MBDQN entrenado es más adecuado para implementación en línea y reduce significativamente los costos de tiempo de ejecución debido a que MBDQN no necesita iteración en la fase de prueba. Experimentos en conjuntos de datos tanto de desperdicio no nulo como de desperdicio nulo demuestran que nuestro método propuesto logra un rendimiento superior en comparación con los métodos codiciosos o heurísticos en los conjuntos de datos de tareas generadas.