Planificación de rutas de vehículos aéreos no tripulados en entornos complejos basada en el gradiente de política determinista profunda retrasada de doble detección de estado
Autores: Zhang, Danyang; Xuan, Zhaolong; Zhang, Yang; Yao, Jiangyi; Li, Xi; Li, Xiongwei
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Planificación de rutas de vehículos aéreos no tripulados en entornos complejos basada en el gradiente de política determinista profunda retrasada de doble detección de estado
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Planificación de rutas
Vehículo aéreo no tripulado
VANT
Vuelo a baja altitud
Obstáculos
Modelo de algoritmo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 17
Citaciones: Sin citaciones
Este documento investiga el problema de planificación de rutas de un vehículo aéreo no tripulado (VANT) para completar una misión de asalto a través de un vuelo a ultra baja altitud en entornos complejos. El VANT necesita evitar áreas de detección por radar, obstáculos estáticos a baja altitud y obstáculos dinámicos a baja altitud durante el proceso de vuelo. Debido a la incertidumbre del movimiento de los obstáculos dinámicos a baja altitud, esto puede ralentizar la convergencia de los modelos de algoritmos existentes y también reducir la tasa de éxito de la misión de los VANT. Para resolver este problema, este documento diseña un método de detección de estado para codificar el estado ambiental de la dirección de viaje del VANT y comprimir el espacio de estado ambiental. Al considerar la continuidad del espacio de estado y del espacio de acción, se propone el algoritmo SD-TD3 en combinación con el algoritmo de gradiente de política determinista profundo de doble retardo (TD3), que puede acelerar la velocidad de convergencia del entrenamiento y mejorar la capacidad de evasión de obstáculos del modelo de algoritmo. Además, para abordar el problema de recompensa escasa del aprendizaje por refuerzo tradicional, se diseña una función de recompensa dinámica heurística para otorgar recompensas en tiempo real y guiar al VANT a completar la tarea. Los resultados de la simulación muestran que los resultados de entrenamiento del algoritmo SD-TD3 convergen más rápido que el algoritmo TD3, y los resultados reales del modelo convergido son mejores.
Descripción
Este documento investiga el problema de planificación de rutas de un vehículo aéreo no tripulado (VANT) para completar una misión de asalto a través de un vuelo a ultra baja altitud en entornos complejos. El VANT necesita evitar áreas de detección por radar, obstáculos estáticos a baja altitud y obstáculos dinámicos a baja altitud durante el proceso de vuelo. Debido a la incertidumbre del movimiento de los obstáculos dinámicos a baja altitud, esto puede ralentizar la convergencia de los modelos de algoritmos existentes y también reducir la tasa de éxito de la misión de los VANT. Para resolver este problema, este documento diseña un método de detección de estado para codificar el estado ambiental de la dirección de viaje del VANT y comprimir el espacio de estado ambiental. Al considerar la continuidad del espacio de estado y del espacio de acción, se propone el algoritmo SD-TD3 en combinación con el algoritmo de gradiente de política determinista profundo de doble retardo (TD3), que puede acelerar la velocidad de convergencia del entrenamiento y mejorar la capacidad de evasión de obstáculos del modelo de algoritmo. Además, para abordar el problema de recompensa escasa del aprendizaje por refuerzo tradicional, se diseña una función de recompensa dinámica heurística para otorgar recompensas en tiempo real y guiar al VANT a completar la tarea. Los resultados de la simulación muestran que los resultados de entrenamiento del algoritmo SD-TD3 convergen más rápido que el algoritmo TD3, y los resultados reales del modelo convergido son mejores.