logo móvil
Contáctanos

Un enfoque de aprendizaje por refuerzo profundo jerárquico para la maximización del rendimiento en una red de comunicación e integración de vehículos aéreos no tripulados asistida por superficies inteligentes reconfigurables

Autores: Chen, Haitao; Miao, Jiansong; Wang, Ruisong; Li, Hao; Zhang, Xiaodan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un enfoque de aprendizaje por refuerzo profundo jerárquico para la maximización del rendimiento en una red de comunicación e integración de vehículos aéreos no tripulados asistida por superficies inteligentes reconfigurables


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Sensado
Comunicación
UAV
ISAC
Optimización
Aprendizaje por refuerzo profundo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La detección y comunicación integradas (ISAC) se considera una tecnología clave que apoya las redes más allá de 5G/6G (B5G/6G), que permite utilizar los recursos del espectro tanto para la detección como para la comunicación. En este artículo, investigamos un escenario de ISAC habilitado por un vehículo aéreo no tripulado (UAV), donde el UAV envía señales de ISAC para comunicarse con múltiples usuarios (UEs) y detecta objetivos potenciales simultáneamente, y se despliega una superficie inteligente reconfigurable (RIS) para mejorar el rendimiento de la comunicación. Con el objetivo de maximizar el rendimiento total del sistema, formulamos el problema de optimización conjunta de la trayectoria y la matriz de formación de haces del UAV, así como la matriz de formación de haces pasiva del RIS. Actualmente, muchos investigadores están trabajando en el uso del aprendizaje por refuerzo profundo (DRL) para abordar tales problemas debido a su naturaleza no convexa; sin embargo, a medida que el entorno se vuelve cada vez más complejo, el espacio de estado y el espacio de acción de alta dimensión conducen a una disminución en el rendimiento del DRL. Para abordar este problema, proponemos un nuevo marco de aprendizaje por refuerzo profundo jerárquico (HDRL) para resolver el problema de optimización. Al descomponer el problema original en el problema de optimización de la trayectoria y el problema de optimización del rendimiento total, adoptamos una estructura de gradiente de política determinista profunda de doble retardo jerárquico (HTD3) para optimizarlos de manera alterna. Los resultados experimentales demuestran que los rendimientos totales del sistema obtenidos por el HDRL propuesto con una estructura HTD3 son un 33%, un 50% y un 10% más altos que los obtenidos por TD3, twin-TD3 (TTD3) y TD3 con solo flotación (TD3HO), respectivamente.

Otros recursos que podrían interesarte

Temas Virtualpro