Método de Planificación de Trayectorias Autónomas para el Mantenimiento de Estación Regional de Aerostatos Estratosféricos Basado en Aprendizaje por Refuerzo Profundo
Autores: Liu, Sitong; Zhou, Shuyu; Miao, Jinggang; Shang, Hai; Cui, Yuxuan; Lu, Ying
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Método de Planificación de Trayectorias Autónomas para el Mantenimiento de Estación Regional de Aerostatos Estratosféricos Basado en Aprendizaje por Refuerzo Profundo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Dirigible estratosférico
Planificación de trayectorias
Aprendizaje profundo por refuerzo
Optimización de políticas proximales
Entorno de campo de viento
Observación regional
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
El dirigible estratosférico, como vehículo de casi espacio, se utiliza cada vez más en la exploración científica y la observación de la Tierra debido a su larga resistencia y capacidades de observación regional. Sin embargo, debido a las características complejas del entorno del campo de viento estratosférico, la planificación de trayectorias para dirigibles estratosféricos es un desafío significativo. A diferencia de los niveles atmosféricos más bajos, la estratosfera presenta un campo de viento caracterizado por una variabilidad significativa en la velocidad y dirección del viento, lo que puede afectar drásticamente la estabilidad de la trayectoria del dirigible. Los avances recientes en el aprendizaje profundo por refuerzo (DRL) han presentado vías prometedoras para la planificación de trayectorias. Los algoritmos de DRL han demostrado la capacidad de aprender estrategias de control complejas de manera autónoma al interactuar con el entorno. En particular, el algoritmo de optimización de políticas proximal (PPO) ha mostrado efectividad en tareas de control continuo y es adecuado para el problema no lineal y de alta dimensión de la planificación de trayectorias en entornos dinámicos. Este documento propone un método de planificación de trayectorias para dirigibles estratosféricos basado en el algoritmo PPO. Las principales contribuciones de este documento incluyen el establecimiento de un modelo de espacio de acción continua para el movimiento del dirigible estratosférico; permitir un control y ajustes más precisos en un rango más amplio de acciones; integrar datos de campo de viento variables en el tiempo en el entorno de aprendizaje por refuerzo; mejorar la adaptabilidad y generalización de la red de políticas a diversas condiciones ambientales; y permitir que el algoritmo ajuste y optimice automáticamente las rutas de vuelo en tiempo real utilizando información de velocidad del viento, reduciendo la necesidad de intervención humana. Los resultados experimentales muestran que, dentro de su capacidad de resistencia al viento, el dirigible puede lograr un mantenimiento de estación regional de larga duración, con una relación máxima de tiempo de mantenimiento de estación (STR) de hasta 0.997.
Descripción
El dirigible estratosférico, como vehículo de casi espacio, se utiliza cada vez más en la exploración científica y la observación de la Tierra debido a su larga resistencia y capacidades de observación regional. Sin embargo, debido a las características complejas del entorno del campo de viento estratosférico, la planificación de trayectorias para dirigibles estratosféricos es un desafío significativo. A diferencia de los niveles atmosféricos más bajos, la estratosfera presenta un campo de viento caracterizado por una variabilidad significativa en la velocidad y dirección del viento, lo que puede afectar drásticamente la estabilidad de la trayectoria del dirigible. Los avances recientes en el aprendizaje profundo por refuerzo (DRL) han presentado vías prometedoras para la planificación de trayectorias. Los algoritmos de DRL han demostrado la capacidad de aprender estrategias de control complejas de manera autónoma al interactuar con el entorno. En particular, el algoritmo de optimización de políticas proximal (PPO) ha mostrado efectividad en tareas de control continuo y es adecuado para el problema no lineal y de alta dimensión de la planificación de trayectorias en entornos dinámicos. Este documento propone un método de planificación de trayectorias para dirigibles estratosféricos basado en el algoritmo PPO. Las principales contribuciones de este documento incluyen el establecimiento de un modelo de espacio de acción continua para el movimiento del dirigible estratosférico; permitir un control y ajustes más precisos en un rango más amplio de acciones; integrar datos de campo de viento variables en el tiempo en el entorno de aprendizaje por refuerzo; mejorar la adaptabilidad y generalización de la red de políticas a diversas condiciones ambientales; y permitir que el algoritmo ajuste y optimice automáticamente las rutas de vuelo en tiempo real utilizando información de velocidad del viento, reduciendo la necesidad de intervención humana. Los resultados experimentales muestran que, dentro de su capacidad de resistencia al viento, el dirigible puede lograr un mantenimiento de estación regional de larga duración, con una relación máxima de tiempo de mantenimiento de estación (STR) de hasta 0.997.