Planificación de rutas de vehículos aéreos no tripulados en entornos complejos basada en el gradiente de política determinista profunda retrasada de doble detección de estado

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Planificación de rutas de vehículos aéreos no tripulados en entornos complejos basada en el gradiente de política determinista profunda retrasada de doble detección de estado

Autores: Zhang, Danyang; Xuan, Zhaolong; Zhang, Yang; Yao, Jiangyi; Li, Xi; Li, Xiongwei

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Planificación de rutas de vehículos aéreos no tripulados en entornos complejos basada en el gradiente de política determinista profunda retrasada de doble detección de estado

Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Planificación de rutas

Vehículo aéreo no tripulado

VANT

Vuelo a baja altitud

Obstáculos

Modelo de algoritmo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 17

Citaciones: Sin citaciones

Este documento investiga el problema de planificación de rutas de un vehículo aéreo no tripulado (VANT) para completar una misión de asalto a través de un vuelo a ultra baja altitud en entornos complejos. El VANT necesita evitar áreas de detección por radar, obstáculos estáticos a baja altitud y obstáculos dinámicos a baja altitud durante el proceso de vuelo. Debido a la incertidumbre del movimiento de los obstáculos dinámicos a baja altitud, esto puede ralentizar la convergencia de los modelos de algoritmos existentes y también reducir la tasa de éxito de la misión de los VANT. Para resolver este problema, este documento diseña un método de detección de estado para codificar el estado ambiental de la dirección de viaje del VANT y comprimir el espacio de estado ambiental. Al considerar la continuidad del espacio de estado y del espacio de acción, se propone el algoritmo SD-TD3 en combinación con el algoritmo de gradiente de política determinista profundo de doble retardo (TD3), que puede acelerar la velocidad de convergencia del entrenamiento y mejorar la capacidad de evasión de obstáculos del modelo de algoritmo. Además, para abordar el problema de recompensa escasa del aprendizaje por refuerzo tradicional, se diseña una función de recompensa dinámica heurística para otorgar recompensas en tiempo real y guiar al VANT a completar la tarea. Los resultados de la simulación muestran que los resultados de entrenamiento del algoritmo SD-TD3 convergen más rápido que el algoritmo TD3, y los resultados reales del modelo convergido son mejores.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro