Aprendizaje por Refuerzo Profundo Multi-Agente Heterogéneo para el Compartición de Espectro Basado en Clústeres en Enjambres de UAV
Autores: Liao, Xiaomin; Wang, Yulai; Han, Yang; Li, You; Lin, Chushan; Zhu, Xuan
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje por Refuerzo Profundo Multi-Agente Heterogéneo para el Compartición de Espectro Basado en Clústeres en Enjambres de UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículo aéreo no tripulado
Enjambre de UAV
Compartición de espectro
Aprendizaje por refuerzo profundo
Cabeza de clúster
Miembro de clúster
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los enjambres de vehículos aéreos no tripulados (UAV) se aplican ampliamente en diversos campos, incluidos los dominios militar y civil. Sin embargo, debido a la escasez de recursos de espectro, la tecnología de agrupamiento de enjambres de UAV ha surgido como un método efectivo para lograr el uso compartido del espectro entre los enjambres de UAV. Este documento presenta un algoritmo de aprendizaje por refuerzo profundo distribuido y heterogéneo de múltiples agentes, llamado HMDRL-UC, que está diseñado específicamente para abordar el problema del uso compartido del espectro basado en agrupamientos en enjambres de UAV heterogéneos. Los enjambres de UAV heterogéneos constan de dos tipos de UAV: cabeza de grupo (CH) y miembro de grupo (CM). Cada UAV está equipado con un agente inteligente para ejecutar el algoritmo de aprendizaje por refuerzo profundo (DRL). Correspondientemente, el HMDRL-UC consta de dos partes: optimización de políticas proximales de múltiples agentes para la cabeza de grupo (MAPPO-H) y optimización de políticas proximales independientes para el miembro de grupo (IPPO-M). El MAPPO-H permite a los CH decidir la selección de grupos y la posición de movimiento, mientras que los CM utilizan IPPO-M para agruparse de manera autónoma bajo la condición de cierta información de distribución de canal parcial (CDI). Suficientes evidencias experimentales han confirmado que el algoritmo HMDRL-UC propuesto en este documento no solo es capaz de gestionar escenarios dinámicos de enjambres de drones en presencia de CDI parcial, sino que también tiene una clara ventaja sobre los otros tres algoritmos existentes en términos de rendimiento promedio, retraso de comunicación intra-grupo y relación señal-ruido mínima (SNR).
Descripción
Los enjambres de vehículos aéreos no tripulados (UAV) se aplican ampliamente en diversos campos, incluidos los dominios militar y civil. Sin embargo, debido a la escasez de recursos de espectro, la tecnología de agrupamiento de enjambres de UAV ha surgido como un método efectivo para lograr el uso compartido del espectro entre los enjambres de UAV. Este documento presenta un algoritmo de aprendizaje por refuerzo profundo distribuido y heterogéneo de múltiples agentes, llamado HMDRL-UC, que está diseñado específicamente para abordar el problema del uso compartido del espectro basado en agrupamientos en enjambres de UAV heterogéneos. Los enjambres de UAV heterogéneos constan de dos tipos de UAV: cabeza de grupo (CH) y miembro de grupo (CM). Cada UAV está equipado con un agente inteligente para ejecutar el algoritmo de aprendizaje por refuerzo profundo (DRL). Correspondientemente, el HMDRL-UC consta de dos partes: optimización de políticas proximales de múltiples agentes para la cabeza de grupo (MAPPO-H) y optimización de políticas proximales independientes para el miembro de grupo (IPPO-M). El MAPPO-H permite a los CH decidir la selección de grupos y la posición de movimiento, mientras que los CM utilizan IPPO-M para agruparse de manera autónoma bajo la condición de cierta información de distribución de canal parcial (CDI). Suficientes evidencias experimentales han confirmado que el algoritmo HMDRL-UC propuesto en este documento no solo es capaz de gestionar escenarios dinámicos de enjambres de drones en presencia de CDI parcial, sino que también tiene una clara ventaja sobre los otros tres algoritmos existentes en términos de rendimiento promedio, retraso de comunicación intra-grupo y relación señal-ruido mínima (SNR).