logo móvil
Contáctanos

Investigación sobre el método de control inteligente de aterrizaje de vehículos de lanzamiento basado en el aprendizaje profundo por refuerzo

Autores: Xue, Shuai; Bai, Hongyang; Zhao, Daxiang; Zhou, Junyan

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Investigación sobre el método de control inteligente de aterrizaje de vehículos de lanzamiento basado en el aprendizaje profundo por refuerzo


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Lanzamiento de vehículos
Control de vuelo inteligente
Algoritmo de aprendizaje profundo por refuerzo
Proceso de aterrizaje
Modelo de red neuronal
Aprendizaje por refuerzo.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
Un vehículo de lanzamiento necesita adaptarse a un entorno de vuelo complejo durante el vuelo, y los algoritmos tradicionales de guía y control apenas pueden hacer frente a las incertidumbres multifactoriales debido a la alta dependencia de los modelos de control. Para resolver este problema, este documento diseña un nuevo método de control de vuelo inteligente para un cohete basado en el algoritmo de aprendizaje profundo por refuerzo impulsado por conocimiento y datos. En este proceso, se establece el proceso de decisión de Markov de la sección de aterrizaje del cohete mediante el diseño de una función de refuerzo teniendo en cuenta el efecto combinado en el retorno de la restricción terminal del vehículo de lanzamiento y el retorno acumulativo del proceso de vuelo del cohete. Mientras tanto, para mejorar la velocidad de entrenamiento del proceso de aterrizaje del vehículo de lanzamiento y aumentar la capacidad de generalización del modelo, se obtiene y entrena el modelo de red neuronal estratégica a través de la forma de una red de memoria a corto y largo plazo (LSTM) combinada con una capa de conexión completa como red de estrategia de guía de aterrizaje. La optimización de políticas proximales (PPO) es el algoritmo de entrenamiento de parámetros de red de aprendizaje por refuerzo combinado con el clonado de comportamiento (BC) como algoritmo de aprendizaje de imitación de preentrenamiento de aprendizaje por refuerzo. Cabe destacar que el entorno transportado por el cohete se trasplanta a la plataforma integrada Nvidia Jetson TX2 para las pruebas comparativas y la verificación de este modelo inteligente, que luego se utiliza para generar comandos de control en tiempo real para guiar el proceso real de vuelo y aterrizaje del cohete. Además, se realizan comparaciones de los resultados obtenidos de la optimización de aterrizaje convexo y el método propuesto en este trabajo para demostrar la efectividad de este método propuesto. Los resultados de la simulación muestran que el método de control inteligente en este trabajo puede cumplir con los requisitos de precisión de aterrizaje del vehículo de lanzamiento con una velocidad de convergencia rápida de 84 pasos, y el tiempo de decisión es solo de 2.5 ms. Además, tiene la capacidad de toma de decisiones autónoma en línea cuando se implementa en la plataforma integrada.

Otros recursos que podrían interesarte

Temas Virtualpro