logo móvil
Contáctanos

Un algoritmo de gradiente de política determinista profundo compensado por el estado para el seguimiento de trayectorias de UAV

Autores: Wu, Jiying; Yang, Zhong; Liao, Luwei; He, Naifeng; Wang, Zhiyong; Wang, Can

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Un algoritmo de gradiente de política determinista profundo compensado por el estado para el seguimiento de trayectorias de UAV


Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Vehículo aéreo no tripulado
Seguimiento de trayectoria
Aprendizaje profundo por refuerzo
Proceso de decisión de Markov
Red neuronal
Resultados de simulación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones


Descripción
El algoritmo de control de seguimiento de trayectoria de vehículos aéreos no tripulados (UAV) basado en aprendizaje por refuerzo profundo es generalmente ineficiente para el entrenamiento en un entorno desconocido, y la convergencia es inestable. Con el objetivo de abordar esta situación, se establece un modelo de proceso de decisión de Markov (MDP) para el seguimiento de trayectoria de UAV, y se propone un algoritmo de gradiente de política determinista profunda compensado por estado (CDDPG). Se añade una red neuronal adicional (C-Net) cuyo input es el estado de compensación y el output es la acción de compensación al modelo de red de un algoritmo de gradiente de política determinista profunda (DDPG) para ayudar en el entrenamiento de exploración de la red. Se combina la salida de acción de la red DDPG con la salida compensada de la C-Net como la acción de salida para interactuar con el entorno, permitiendo que el UAV rastree rápidamente objetivos dinámicos de la manera más precisa, continua y suave posible. Además, se añade ruido aleatorio sobre la base del comportamiento generado para realizar un cierto rango de exploración y hacer que la estimación del valor de acción sea más precisa. Se utiliza la herramienta OpenAI Gym para verificar el método propuesto, y los resultados de la simulación muestran que: (1) El método propuesto puede mejorar significativamente la eficiencia del entrenamiento al añadir una red de compensación y mejorar efectivamente la precisión y la estabilidad de convergencia; (2) Bajo la misma configuración de computadora, el costo computacional del algoritmo propuesto es básicamente el mismo que el del algoritmo QAC (algoritmo Actor-crítico basado en el valor de comportamiento Q) y el algoritmo DDPG; (3) Durante el proceso de entrenamiento, con la misma precisión de seguimiento, la eficiencia de aprendizaje es aproximadamente un 70% mayor que la de QAC y DDPG; (4) Durante el experimento de seguimiento de simulación, bajo el mismo tiempo de entrenamiento, el error de seguimiento del método propuesto después de estabilizarse es aproximadamente un 50% menor que el de QAC y DDPG.

Otros recursos que podrían interesarte

Temas Virtualpro