Aprendizaje Profundo de Refuerzo impulsado por la Planificación de Rutas de Recolección de Datos de UAV: Un Estudio sobre la Minimización de AoI
Autores: Huang, Hesong; Li, Yang; Song, Ge; Gai, Wendong
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aprendizaje Profundo de Refuerzo impulsado por la Planificación de Rutas de Recolección de Datos de UAV: Un Estudio sobre la Minimización de AoI
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Uav
Internet de las cosas
Era de la información
Planificación de rutas
Optimización por enjambre de partículas
Red neuronal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
Como dispositivo de recolección de datos altamente eficiente y flexible, los Vehículos Aéreos No Tripulados (UAVs) han ganado una amplia aplicación debido a la continua proliferación de Internet de las Cosas (IoT). Abordando las altas demandas de puntualidad en escenarios de comunicación práctica, este documento investiga la planificación de trayectorias colaborativas multi-UAV, centrándose en la minimización del promedio ponderado de la Edad de la Información (AoI) para dispositivos IoT. Para abordar este desafío, se presenta el algoritmo de gradiente de política determinista profunda retrasada de doble agente con piscinas de experiencias duales y optimización por enjambre de partículas (DP-MATD3). El objetivo es entrenar múltiples UAVs para buscar de manera autónoma rutas óptimas, minimizando el AoI. En primer lugar, considerando la relativa lentitud de aprendizaje y la susceptibilidad a mínimos locales de los algoritmos de redes neuronales, se utiliza un algoritmo de optimización de enjambre de partículas (PSO) mejorado para la optimización de parámetros de la red neuronal de gradiente de política determinista profunda retrasada de doble agente (MATD3). En segundo lugar, con la introducción del mecanismo de piscinas de experiencias duales, la eficiencia del entrenamiento de la red se mejora significativamente. Los resultados experimentales muestran que DP-MATD3 supera a MATD3 en el AoI ponderado promedio. El AoI promedio ponderado se reduce en un 33.3% y 27.5% para velocidades de vuelo de UAV de = 5 m/s y = 10 m/s, respectivamente.
Descripción
Como dispositivo de recolección de datos altamente eficiente y flexible, los Vehículos Aéreos No Tripulados (UAVs) han ganado una amplia aplicación debido a la continua proliferación de Internet de las Cosas (IoT). Abordando las altas demandas de puntualidad en escenarios de comunicación práctica, este documento investiga la planificación de trayectorias colaborativas multi-UAV, centrándose en la minimización del promedio ponderado de la Edad de la Información (AoI) para dispositivos IoT. Para abordar este desafío, se presenta el algoritmo de gradiente de política determinista profunda retrasada de doble agente con piscinas de experiencias duales y optimización por enjambre de partículas (DP-MATD3). El objetivo es entrenar múltiples UAVs para buscar de manera autónoma rutas óptimas, minimizando el AoI. En primer lugar, considerando la relativa lentitud de aprendizaje y la susceptibilidad a mínimos locales de los algoritmos de redes neuronales, se utiliza un algoritmo de optimización de enjambre de partículas (PSO) mejorado para la optimización de parámetros de la red neuronal de gradiente de política determinista profunda retrasada de doble agente (MATD3). En segundo lugar, con la introducción del mecanismo de piscinas de experiencias duales, la eficiencia del entrenamiento de la red se mejora significativamente. Los resultados experimentales muestran que DP-MATD3 supera a MATD3 en el AoI ponderado promedio. El AoI promedio ponderado se reduce en un 33.3% y 27.5% para velocidades de vuelo de UAV de = 5 m/s y = 10 m/s, respectivamente.