Método de Planificación de Trayectorias en Línea para la Fase de Guía de Medio Curso Basado en Aprendizaje por Refuerzo Profundo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Método de Planificación de Trayectorias en Línea para la Fase de Guía de Medio Curso Basado en Aprendizaje por Refuerzo Profundo

Autores: Li, Wanli; Li, Jiong; Li, Ningbo; Shao, Lei; Li, Mingjie

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Método de Planificación de Trayectorias en Línea para la Fase de Guía de Medio Curso Basado en Aprendizaje por Refuerzo Profundo

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Interceptor

Guía de medio curso

Planificación de trayectoria

Aprendizaje profundo por refuerzo

Proceso de decisión de Markov

Estrategia de entrenamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones

Preocupado por el problema de la planificación en línea de la trayectoria de guía intermedia del interceptor que satisface múltiples restricciones, se propone un método de planificación de trayectoria de guía intermedia en línea basado en el aprendizaje por refuerzo profundo (DRL). Se diseña el proceso de decisión de Markov (MDP) correspondiente al contexto de un problema de planificación de trayectoria, y la función de recompensa clave se compone de la recompensa final y la recompensa de retroalimentación negativa por pasos, lo que sienta las bases para el método de planificación de trayectoria de entrenamiento del interceptor en los datos interactivos de un entorno de simulación; al mismo tiempo, preocupado por los problemas de aprendizaje inestable y eficiencia de entrenamiento, se propone una estrategia de entrenamiento de planificación de trayectoria combinada con aprendizaje de curso (CL) y gradiente de política determinista profundo (DDPG) para realizar el progreso progresivo del aprendizaje y entrenamiento de planificación de trayectoria desde la satisfacción de objetivos simples hasta objetivos complejos, y mejorar la convergencia del algoritmo. Los resultados de la simulación muestran que nuestro método no solo puede generar la trayectoria óptima con buenos resultados, sino que su velocidad de generación de trayectoria también es más de 10 veces más rápida que el método convexo pseudoespectral hp (PSC), y también puede resistir la influencia del error causada principalmente por la interferencia del viento aleatorio, lo que tiene cierto valor de aplicación y buenas perspectivas de investigación.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro