Múltiples UAVs planificación de ruta basada en aprendizaje profundo por refuerzo en entorno de negación de comunicación
Autores: Xu, Yahao; Wei, Yiran; Jiang, Keyang; Wang, Di; Deng, Hongbin
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Múltiples UAVs planificación de ruta basada en aprendizaje profundo por refuerzo en entorno de negación de comunicación
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Algoritmo propuesto
Navegación autónoma
Múltiples UAVs
Entorno de negación de comunicación
Política independiente
Planificación dinámica de rutas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
En este documento, proponemos un algoritmo dinámico de planificación de ruta de destino C51-Duel-IP (C51 Dueling DQN con Política Independiente) para resolver el problema de la navegación autónoma y la evasión de múltiples Vehículos Aéreos No Tripulados (UAVs) en un entorno de denegación de comunicación. Nuestro algoritmo propuesto expresa la salida de la función Q por la red Dueling como una distribución Q, lo que mejora la capacidad de ajuste del valor Q. También extendemos la diferencial temporal de un solo paso (TD) a la diferencial temporal de N pasos, lo que resuelve el problema de actualizaciones inflexibles de la diferencial temporal de un solo paso. Más importante aún, utilizamos una política independiente para lograr la evasión y navegación autónoma de múltiples UAVs sin necesidad de comunicarse entre sí. En caso de rechazo de comunicación, la política independiente puede lograr la consistencia de múltiples UAVs y evitar el comportamiento codicioso de los UAVs. En escenarios de destino dinámico de múltiples UAVs, nuestro trabajo incluye la planificación de rutas, despegando desde diferentes posiciones iniciales, y la planificación de rutas dinámicas, despegando desde la misma posición inicial. Los resultados del experimento en hardware en bucle cerrado (HITL) muestran que nuestro algoritmo C51-Duel-IP es mucho más robusto y efectivo que los algoritmos originales Dueling-IP y DQN-IP en un entorno de simulación urbana. Nuestro algoritmo de política independiente tiene efectos similares a la política compartida pero con la ventaja significativa de funcionar en un entorno de denegación de comunicación.
Descripción
En este documento, proponemos un algoritmo dinámico de planificación de ruta de destino C51-Duel-IP (C51 Dueling DQN con Política Independiente) para resolver el problema de la navegación autónoma y la evasión de múltiples Vehículos Aéreos No Tripulados (UAVs) en un entorno de denegación de comunicación. Nuestro algoritmo propuesto expresa la salida de la función Q por la red Dueling como una distribución Q, lo que mejora la capacidad de ajuste del valor Q. También extendemos la diferencial temporal de un solo paso (TD) a la diferencial temporal de N pasos, lo que resuelve el problema de actualizaciones inflexibles de la diferencial temporal de un solo paso. Más importante aún, utilizamos una política independiente para lograr la evasión y navegación autónoma de múltiples UAVs sin necesidad de comunicarse entre sí. En caso de rechazo de comunicación, la política independiente puede lograr la consistencia de múltiples UAVs y evitar el comportamiento codicioso de los UAVs. En escenarios de destino dinámico de múltiples UAVs, nuestro trabajo incluye la planificación de rutas, despegando desde diferentes posiciones iniciales, y la planificación de rutas dinámicas, despegando desde la misma posición inicial. Los resultados del experimento en hardware en bucle cerrado (HITL) muestran que nuestro algoritmo C51-Duel-IP es mucho más robusto y efectivo que los algoritmos originales Dueling-IP y DQN-IP en un entorno de simulación urbana. Nuestro algoritmo de política independiente tiene efectos similares a la política compartida pero con la ventaja significativa de funcionar en un entorno de denegación de comunicación.