logo móvil
Contáctanos

Planificación de rutas de vehículos aéreos no tripulados en entornos complejos basada en el gradiente de política determinista profunda retrasada de doble detección de estado

Autores: Zhang, Danyang; Xuan, Zhaolong; Zhang, Yang; Yao, Jiangyi; Li, Xi; Li, Xiongwei

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Planificación de rutas de vehículos aéreos no tripulados en entornos complejos basada en el gradiente de política determinista profunda retrasada de doble detección de estado


Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Planificación de rutas
Vehículo aéreo no tripulado
VANT
Vuelo a baja altitud
Obstáculos
Modelo de algoritmo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 17

Citaciones: Sin citaciones


Descripción
Este documento investiga el problema de planificación de rutas de un vehículo aéreo no tripulado (VANT) para completar una misión de asalto a través de un vuelo a ultra baja altitud en entornos complejos. El VANT necesita evitar áreas de detección por radar, obstáculos estáticos a baja altitud y obstáculos dinámicos a baja altitud durante el proceso de vuelo. Debido a la incertidumbre del movimiento de los obstáculos dinámicos a baja altitud, esto puede ralentizar la convergencia de los modelos de algoritmos existentes y también reducir la tasa de éxito de la misión de los VANT. Para resolver este problema, este documento diseña un método de detección de estado para codificar el estado ambiental de la dirección de viaje del VANT y comprimir el espacio de estado ambiental. Al considerar la continuidad del espacio de estado y del espacio de acción, se propone el algoritmo SD-TD3 en combinación con el algoritmo de gradiente de política determinista profundo de doble retardo (TD3), que puede acelerar la velocidad de convergencia del entrenamiento y mejorar la capacidad de evasión de obstáculos del modelo de algoritmo. Además, para abordar el problema de recompensa escasa del aprendizaje por refuerzo tradicional, se diseña una función de recompensa dinámica heurística para otorgar recompensas en tiempo real y guiar al VANT a completar la tarea. Los resultados de la simulación muestran que los resultados de entrenamiento del algoritmo SD-TD3 convergen más rápido que el algoritmo TD3, y los resultados reales del modelo convergido son mejores.

Otros recursos que podrían interesarte

Temas Virtualpro