Un algoritmo de gradiente de política determinista profundo compensado por el estado para el seguimiento de trayectorias de UAV

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un algoritmo de gradiente de política determinista profundo compensado por el estado para el seguimiento de trayectorias de UAV

Autores: Wu, Jiying; Yang, Zhong; Liao, Luwei; He, Naifeng; Wang, Zhiyong; Wang, Can

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Un algoritmo de gradiente de política determinista profundo compensado por el estado para el seguimiento de trayectorias de UAV

Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Vehículo aéreo no tripulado

Seguimiento de trayectoria

Aprendizaje profundo por refuerzo

Proceso de decisión de Markov

Red neuronal

Resultados de simulación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones

El algoritmo de control de seguimiento de trayectoria de vehículos aéreos no tripulados (UAV) basado en aprendizaje por refuerzo profundo es generalmente ineficiente para el entrenamiento en un entorno desconocido, y la convergencia es inestable. Con el objetivo de abordar esta situación, se establece un modelo de proceso de decisión de Markov (MDP) para el seguimiento de trayectoria de UAV, y se propone un algoritmo de gradiente de política determinista profunda compensado por estado (CDDPG). Se añade una red neuronal adicional (C-Net) cuyo input es el estado de compensación y el output es la acción de compensación al modelo de red de un algoritmo de gradiente de política determinista profunda (DDPG) para ayudar en el entrenamiento de exploración de la red. Se combina la salida de acción de la red DDPG con la salida compensada de la C-Net como la acción de salida para interactuar con el entorno, permitiendo que el UAV rastree rápidamente objetivos dinámicos de la manera más precisa, continua y suave posible. Además, se añade ruido aleatorio sobre la base del comportamiento generado para realizar un cierto rango de exploración y hacer que la estimación del valor de acción sea más precisa. Se utiliza la herramienta OpenAI Gym para verificar el método propuesto, y los resultados de la simulación muestran que: (1) El método propuesto puede mejorar significativamente la eficiencia del entrenamiento al añadir una red de compensación y mejorar efectivamente la precisión y la estabilidad de convergencia; (2) Bajo la misma configuración de computadora, el costo computacional del algoritmo propuesto es básicamente el mismo que el del algoritmo QAC (algoritmo Actor-crítico basado en el valor de comportamiento Q) y el algoritmo DDPG; (3) Durante el proceso de entrenamiento, con la misma precisión de seguimiento, la eficiencia de aprendizaje es aproximadamente un 70% mayor que la de QAC y DDPG; (4) Durante el experimento de seguimiento de simulación, bajo el mismo tiempo de entrenamiento, el error de seguimiento del método propuesto después de estabilizarse es aproximadamente un 50% menor que el de QAC y DDPG.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro