logo móvil
Contáctanos

Método de Planificación de Trayectorias en Línea para la Fase de Guía de Medio Curso Basado en Aprendizaje por Refuerzo Profundo

Autores: Li, Wanli; Li, Jiong; Li, Ningbo; Shao, Lei; Li, Mingjie

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Método de Planificación de Trayectorias en Línea para la Fase de Guía de Medio Curso Basado en Aprendizaje por Refuerzo Profundo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Interceptor
Guía de medio curso
Planificación de trayectoria
Aprendizaje profundo por refuerzo
Proceso de decisión de Markov
Estrategia de entrenamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones


Descripción
Preocupado por el problema de la planificación en línea de la trayectoria de guía intermedia del interceptor que satisface múltiples restricciones, se propone un método de planificación de trayectoria de guía intermedia en línea basado en el aprendizaje por refuerzo profundo (DRL). Se diseña el proceso de decisión de Markov (MDP) correspondiente al contexto de un problema de planificación de trayectoria, y la función de recompensa clave se compone de la recompensa final y la recompensa de retroalimentación negativa por pasos, lo que sienta las bases para el método de planificación de trayectoria de entrenamiento del interceptor en los datos interactivos de un entorno de simulación; al mismo tiempo, preocupado por los problemas de aprendizaje inestable y eficiencia de entrenamiento, se propone una estrategia de entrenamiento de planificación de trayectoria combinada con aprendizaje de curso (CL) y gradiente de política determinista profundo (DDPG) para realizar el progreso progresivo del aprendizaje y entrenamiento de planificación de trayectoria desde la satisfacción de objetivos simples hasta objetivos complejos, y mejorar la convergencia del algoritmo. Los resultados de la simulación muestran que nuestro método no solo puede generar la trayectoria óptima con buenos resultados, sino que su velocidad de generación de trayectoria también es más de 10 veces más rápida que el método convexo pseudoespectral hp (PSC), y también puede resistir la influencia del error causada principalmente por la interferencia del viento aleatorio, lo que tiene cierto valor de aplicación y buenas perspectivas de investigación.

Otros recursos que podrían interesarte

Temas Virtualpro