Control de Aterrizaje Potenciado de Cohetes Reutilizables Basado en Softmax Double DDPG
Autores: Li, Wenting; Zhang, Xiuhui; Dong, Yunfeng; Lin, Yan; Li, Hongjue
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Control de Aterrizaje Potenciado de Cohetes Reutilizables Basado en Softmax Double DDPG
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Cohetes
Reutilizables
Aprendizaje por refuerzo
Control de aterrizaje
Aprendizaje profundo
Simulación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Los vehículos de lanzamiento de múltiples etapas son actualmente la herramienta principal para que los humanos alcancen el espacio extraterrestre. La tecnología de recuperación y reutilización de cohetes puede acortar efectivamente los ciclos de lanzamiento de cohetes y reducir los costos de lanzamiento al espacio. Con el desarrollo del aprendizaje profundo de representación, el aprendizaje por refuerzo (RL) se ha convertido en un marco de aprendizaje robusto capaz de aprender políticas complejas en entornos de alta dimensión. En este artículo, se propone un método de control de aterrizaje de cohetes reutilizables basado en el aprendizaje por refuerzo profundo. El proceso matemático del aterrizaje de cohetes reutilizables se modela considerando la resistencia aerodinámica, el empuje, la fuerza gravitacional y la rotación de la Tierra durante el proceso de aterrizaje. Se diseña una función de recompensa de acuerdo con las recompensas y penalizaciones derivadas del cumplimiento de la misión, las restricciones terminales y el rendimiento del aterrizaje. Con base en esto, se aplica el método de gradiente de política determinista doble suave (SD3) de RL profundo para construir un método de control de aterrizaje de cohetes reutilizables robusto. En el entorno de simulación construido, el método propuesto puede lograr resultados de control convergentes y robustos, demostrando la efectividad del método propuesto.
Descripción
Los vehículos de lanzamiento de múltiples etapas son actualmente la herramienta principal para que los humanos alcancen el espacio extraterrestre. La tecnología de recuperación y reutilización de cohetes puede acortar efectivamente los ciclos de lanzamiento de cohetes y reducir los costos de lanzamiento al espacio. Con el desarrollo del aprendizaje profundo de representación, el aprendizaje por refuerzo (RL) se ha convertido en un marco de aprendizaje robusto capaz de aprender políticas complejas en entornos de alta dimensión. En este artículo, se propone un método de control de aterrizaje de cohetes reutilizables basado en el aprendizaje por refuerzo profundo. El proceso matemático del aterrizaje de cohetes reutilizables se modela considerando la resistencia aerodinámica, el empuje, la fuerza gravitacional y la rotación de la Tierra durante el proceso de aterrizaje. Se diseña una función de recompensa de acuerdo con las recompensas y penalizaciones derivadas del cumplimiento de la misión, las restricciones terminales y el rendimiento del aterrizaje. Con base en esto, se aplica el método de gradiente de política determinista doble suave (SD3) de RL profundo para construir un método de control de aterrizaje de cohetes reutilizables robusto. En el entorno de simulación construido, el método propuesto puede lograr resultados de control convergentes y robustos, demostrando la efectividad del método propuesto.