Investigación sobre el Método de Control de Autoaprendizaje de Vehículos de Lanzamiento Reutilizables Basado en Búsqueda de Arquitectura de Redes Neuronales
Autores: Xue, Shuai; Wang, Zhaolei; Bai, Hongyang; Yu, Chunmei; Li, Zian
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Investigación sobre el Método de Control de Autoaprendizaje de Vehículos de Lanzamiento Reutilizables Basado en Búsqueda de Arquitectura de Redes Neuronales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Ley de control de recuperación de cohetes
Aprendizaje profundo por refuerzo
Búsqueda de arquitectura neuronal
Optimización de hiperparámetros
Optimización bayesiana
Recuperación de vehículos de lanzamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Los vehículos de lanzamiento reutilizables deben enfrentar entornos complejos y diversos durante el vuelo. El diseño de la ley de control de recuperación de cohetes basado en el aprendizaje por refuerzo profundo (DRL) tradicional dificulta la obtención de un conjunto de arquitecturas de red que puedan adaptarse a múltiples escenarios y a incertidumbres de múltiples parámetros, y el rendimiento del algoritmo de aprendizaje por refuerzo profundo depende de la prueba y error manual de los hiperparámetros. Para resolver este problema, este artículo propone un método de control de autoaprendizaje para la recuperación de vehículos de lanzamiento basado en la búsqueda de arquitecturas neuronales (NAS), que desacopla la búsqueda de la estructura de la red profunda y la optimización de hiperparámetros del aprendizaje por refuerzo. Primero, utilizando tecnología de búsqueda de arquitecturas de red basada en un algoritmo híbrido de optimización por enjambre de partículas multiobjetivo, se diseña automáticamente el algoritmo de optimización de políticas proximales de la arquitectura de red profunda, y el espacio de búsqueda se diseña de manera ligera en el proceso. En segundo lugar, para mejorar aún más la precisión de aterrizaje del vehículo de lanzamiento, se utiliza el método de optimización bayesiana (BO) para optimizar automáticamente los hiperparámetros del aprendizaje por refuerzo, y se obtiene la ley de control de la fase de aterrizaje en el proceso de recuperación del vehículo de lanzamiento a través del entrenamiento. Finalmente, el algoritmo se trasplanta a la plataforma embebida de aprendizaje inteligente del cohete para pruebas comparativas que verifican su capacidad de implementación en línea. Los resultados de la simulación muestran que el método propuesto puede satisfacer la precisión de aterrizaje de la misión de recuperación del vehículo de lanzamiento, y el efecto de control es básicamente el mismo que la precisión de aterrizaje del modelo de cohete entrenado bajo la condición no entrenada de desviación de parámetros del modelo e interferencia del campo de viento, lo que verifica la generalización del método propuesto.
Descripción
Los vehículos de lanzamiento reutilizables deben enfrentar entornos complejos y diversos durante el vuelo. El diseño de la ley de control de recuperación de cohetes basado en el aprendizaje por refuerzo profundo (DRL) tradicional dificulta la obtención de un conjunto de arquitecturas de red que puedan adaptarse a múltiples escenarios y a incertidumbres de múltiples parámetros, y el rendimiento del algoritmo de aprendizaje por refuerzo profundo depende de la prueba y error manual de los hiperparámetros. Para resolver este problema, este artículo propone un método de control de autoaprendizaje para la recuperación de vehículos de lanzamiento basado en la búsqueda de arquitecturas neuronales (NAS), que desacopla la búsqueda de la estructura de la red profunda y la optimización de hiperparámetros del aprendizaje por refuerzo. Primero, utilizando tecnología de búsqueda de arquitecturas de red basada en un algoritmo híbrido de optimización por enjambre de partículas multiobjetivo, se diseña automáticamente el algoritmo de optimización de políticas proximales de la arquitectura de red profunda, y el espacio de búsqueda se diseña de manera ligera en el proceso. En segundo lugar, para mejorar aún más la precisión de aterrizaje del vehículo de lanzamiento, se utiliza el método de optimización bayesiana (BO) para optimizar automáticamente los hiperparámetros del aprendizaje por refuerzo, y se obtiene la ley de control de la fase de aterrizaje en el proceso de recuperación del vehículo de lanzamiento a través del entrenamiento. Finalmente, el algoritmo se trasplanta a la plataforma embebida de aprendizaje inteligente del cohete para pruebas comparativas que verifican su capacidad de implementación en línea. Los resultados de la simulación muestran que el método propuesto puede satisfacer la precisión de aterrizaje de la misión de recuperación del vehículo de lanzamiento, y el efecto de control es básicamente el mismo que la precisión de aterrizaje del modelo de cohete entrenado bajo la condición no entrenada de desviación de parámetros del modelo e interferencia del campo de viento, lo que verifica la generalización del método propuesto.