Un esquema de aprendizaje profundo por refuerzo para la detección de espectro y asignación de recursos en ITS
Autores: Wei, Huang; Peng, Yuyang; Yue, Ming; Long, Jiale; AL-Hazemi, Fawaz; Mirza, Mohammad Meraj
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un esquema de aprendizaje profundo por refuerzo para la detección de espectro y asignación de recursos en ITS
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Internet de vehículos
Aprendizaje por refuerzo
Asignación de recursos de espectro
ITS
Enlace V2V
Enlace V2I
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
En los últimos años, se ha descubierto que el Internet de los Vehículos (IoV) tiene un enorme potencial en la promoción del desarrollo de sistemas de transporte inteligentes (ITS) y ciudades inteligentes. Sin embargo, el esquema tradicional en IoV tiene dificultades para lidiar con un entorno incierto, mientras que el aprendizaje por refuerzo tiene la ventaja de poder hacerlo. La asignación de recursos de espectro en IoV se enfrenta al entorno incierto en la mayoría de los casos. Por lo tanto, este documento investiga el problema de asignación de recursos de espectro mediante aprendizaje profundo por refuerzo después de utilizar la tecnología de detección de espectro en los ITS, incluyendo el enlace vehículo a infraestructura (V2I) y el enlace vehículo a vehículo (V2V). La asignación de recursos de espectro se modela como un problema multiagente basado en aprendizaje por refuerzo que se resuelve utilizando el algoritmo de crítico de actor suave (SAC). Considerado un agente, cada enlace V2V interactúa con el entorno del vehículo y realiza una acción conjunta. Después, cada agente recibe diferentes observaciones, así como la misma recompensa, y actualiza las redes a través de las experiencias de la memoria. Por lo tanto, durante un cierto tiempo, cada enlace V2V puede optimizar su esquema de asignación de espectro para maximizar la capacidad V2I y aumentar la tasa de transmisión de entrega de carga V2V. Sin embargo, el número de redes SAC aumenta linealmente a medida que aumenta el número de enlaces V2V, lo que significa que las redes pueden tener un problema en términos de convergencia cuando hay un número excesivo de enlaces V2V. En consecuencia, se propone un nuevo algoritmo, denominado crítico de actor suave con compartición de parámetros (PSSAC), para reducir la complejidad para que el modelo sea más fácil de converger. Los resultados de la simulación muestran que tanto SAC como PSSAC pueden mejorar la capacidad V2I y aumentar la probabilidad de éxito de transmisión de carga V2V en un cierto tiempo. Específicamente, estos esquemas novedosos tienen una mejora del rendimiento del 10 por ciento en comparación con el esquema existente en el entorno vehicular. Además, PSSAC tiene una menor complejidad.
Descripción
En los últimos años, se ha descubierto que el Internet de los Vehículos (IoV) tiene un enorme potencial en la promoción del desarrollo de sistemas de transporte inteligentes (ITS) y ciudades inteligentes. Sin embargo, el esquema tradicional en IoV tiene dificultades para lidiar con un entorno incierto, mientras que el aprendizaje por refuerzo tiene la ventaja de poder hacerlo. La asignación de recursos de espectro en IoV se enfrenta al entorno incierto en la mayoría de los casos. Por lo tanto, este documento investiga el problema de asignación de recursos de espectro mediante aprendizaje profundo por refuerzo después de utilizar la tecnología de detección de espectro en los ITS, incluyendo el enlace vehículo a infraestructura (V2I) y el enlace vehículo a vehículo (V2V). La asignación de recursos de espectro se modela como un problema multiagente basado en aprendizaje por refuerzo que se resuelve utilizando el algoritmo de crítico de actor suave (SAC). Considerado un agente, cada enlace V2V interactúa con el entorno del vehículo y realiza una acción conjunta. Después, cada agente recibe diferentes observaciones, así como la misma recompensa, y actualiza las redes a través de las experiencias de la memoria. Por lo tanto, durante un cierto tiempo, cada enlace V2V puede optimizar su esquema de asignación de espectro para maximizar la capacidad V2I y aumentar la tasa de transmisión de entrega de carga V2V. Sin embargo, el número de redes SAC aumenta linealmente a medida que aumenta el número de enlaces V2V, lo que significa que las redes pueden tener un problema en términos de convergencia cuando hay un número excesivo de enlaces V2V. En consecuencia, se propone un nuevo algoritmo, denominado crítico de actor suave con compartición de parámetros (PSSAC), para reducir la complejidad para que el modelo sea más fácil de converger. Los resultados de la simulación muestran que tanto SAC como PSSAC pueden mejorar la capacidad V2I y aumentar la probabilidad de éxito de transmisión de carga V2V en un cierto tiempo. Específicamente, estos esquemas novedosos tienen una mejora del rendimiento del 10 por ciento en comparación con el esquema existente en el entorno vehicular. Además, PSSAC tiene una menor complejidad.