Aprendizaje por refuerzo federado para la inteligencia colaborativa en comunicaciones C-V2X asistidas por UAV
Autores: Gupta, Abhishek; Fernando, Xavier
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aprendizaje por refuerzo federado para la inteligencia colaborativa en comunicaciones C-V2X asistidas por UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje por refuerzo federado
Comunicación C-V2X
Servidor de parámetros
Vehículo aéreo no tripulado
Heterogeneidad de datos
Modelo global
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento aplica el aprendizaje por refuerzo federado (FRL) en la comunicación de vehículo a todo (C-V2X) para permitir que los vehículos aprendan parámetros de comunicación en colaboración con un servidor de parámetros que está integrado en un vehículo aéreo no tripulado (UAV). Diferentes sensores en los vehículos capturan diferentes tipos de datos, contribuyendo a la heterogeneidad de los datos. Las redes de comunicación C-V2X imponen una sobrecarga de comunicación adicional para converger a un modelo global cuando los datos de los sensores no son independientes y idénticamente distribuidos (no i.i.d.). En consecuencia, el tiempo de entrenamiento para las actualizaciones del modelo local también varía considerablemente. Usando FRL, aceleramos esta convergencia minimizando las rondas de comunicación, y la retrasamos explorando la correlación entre los datos capturados por varios vehículos en pasos de tiempo posteriores. Además, dado que los UAV tienen una potencia de batería limitada, procesar la información recopilada localmente en los vehículos y luego transmitir los hiperparámetros del modelo a los UAV puede optimizar el patrón de consumo de energía disponible. El algoritmo FRL propuesto actualiza el modelo global a través de un pesaje adaptativo de los valores Q en cada ronda de entrenamiento. Al medir los gradientes locales en el vehículo y el gradiente global en el UAV, se determina la contribución de los modelos locales. Cuantificamos estos valores Q utilizando mapeos no lineales para reforzar recompensas positivas de manera que la contribución de los modelos locales se mida dinámicamente. Además, se investiga la minimización del número de rondas de comunicación entre los UAV y los vehículos como un enfoque viable para minimizar el retraso. Una evaluación del rendimiento reveló que el enfoque FRL puede lograr hasta un 40% de reducción en el número de rondas de comunicación entre vehículos y UAV en comparación con la descarga de datos bruta.
Descripción
Este documento aplica el aprendizaje por refuerzo federado (FRL) en la comunicación de vehículo a todo (C-V2X) para permitir que los vehículos aprendan parámetros de comunicación en colaboración con un servidor de parámetros que está integrado en un vehículo aéreo no tripulado (UAV). Diferentes sensores en los vehículos capturan diferentes tipos de datos, contribuyendo a la heterogeneidad de los datos. Las redes de comunicación C-V2X imponen una sobrecarga de comunicación adicional para converger a un modelo global cuando los datos de los sensores no son independientes y idénticamente distribuidos (no i.i.d.). En consecuencia, el tiempo de entrenamiento para las actualizaciones del modelo local también varía considerablemente. Usando FRL, aceleramos esta convergencia minimizando las rondas de comunicación, y la retrasamos explorando la correlación entre los datos capturados por varios vehículos en pasos de tiempo posteriores. Además, dado que los UAV tienen una potencia de batería limitada, procesar la información recopilada localmente en los vehículos y luego transmitir los hiperparámetros del modelo a los UAV puede optimizar el patrón de consumo de energía disponible. El algoritmo FRL propuesto actualiza el modelo global a través de un pesaje adaptativo de los valores Q en cada ronda de entrenamiento. Al medir los gradientes locales en el vehículo y el gradiente global en el UAV, se determina la contribución de los modelos locales. Cuantificamos estos valores Q utilizando mapeos no lineales para reforzar recompensas positivas de manera que la contribución de los modelos locales se mida dinámicamente. Además, se investiga la minimización del número de rondas de comunicación entre los UAV y los vehículos como un enfoque viable para minimizar el retraso. Una evaluación del rendimiento reveló que el enfoque FRL puede lograr hasta un 40% de reducción en el número de rondas de comunicación entre vehículos y UAV en comparación con la descarga de datos bruta.