Aprendizaje por Refuerzo Profundo Off-Policy para la Planificación de Rutas de Aerostatos Estratosféricos
Autores: Xie, Jiawen; Huang, Wanning; Miao, Jinggang; Li, Jialong; Cao, Shenghong
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje por Refuerzo Profundo Off-Policy para la Planificación de Rutas de Aerostatos Estratosféricos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Dirigible estratosférico
Transferencia autónoma
Algoritmo de aprendizaje por refuerzo profundo
Red LSTM
Mecanismo de repetición de experiencias priorizadas por recompensa
Velocidad de convergencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El dirigible estratosférico es una plataforma vital en aplicaciones de casi espacio, y lograr una transferencia autónoma se ha convertido en un enfoque clave de investigación para satisfacer las demandas de diversos escenarios de misión. El desafío principal radica en planificar rutas viables y eficientes, lo cual es difícil para los algoritmos tradicionales debido al entorno variable en el tiempo y a la dinámica de múltiples sistemas altamente acoplados del dirigible. Este estudio propone un algoritmo de aprendizaje por refuerzo profundo, denominado Gradiente de Política Determinista Profunda Retrasada de Memoria a Largo y Corto Plazo Priorizada por Recompensa (RPL-TD3). El método incorpora una red LSTM para capturar eficazmente la influencia de los estados históricos en la toma de decisiones actual, mejorando así el rendimiento en tareas con fuertes dependencias temporales. Además, para abordar la lenta convergencia comúnmente observada en métodos fuera de política, se introduce un mecanismo de repetición de experiencias priorizadas por recompensa. Este mecanismo almacena y reproduce experiencias en forma de cadenas de datos secuenciales, las etiqueta con recompensas a nivel de secuencia y prioriza experiencias de alto valor durante el entrenamiento para acelerar la convergencia. Experimentos comparativos con otros algoritmos indican que, bajo los mismos recursos computacionales, RPL-TD3 mejora la velocidad de convergencia en un 62.5% en comparación con el algoritmo base sin el mecanismo de repetición de experiencias priorizadas por recompensa. En experimentos de simulación y generalización, el método propuesto es capaz de planificar rutas viables bajo restricciones cinemáticas y de energía. En comparación con algoritmos similares, logra el tiempo de vuelo más corto mientras mantiene un nivel relativamente alto de energía residual promedio.
Descripción
El dirigible estratosférico es una plataforma vital en aplicaciones de casi espacio, y lograr una transferencia autónoma se ha convertido en un enfoque clave de investigación para satisfacer las demandas de diversos escenarios de misión. El desafío principal radica en planificar rutas viables y eficientes, lo cual es difícil para los algoritmos tradicionales debido al entorno variable en el tiempo y a la dinámica de múltiples sistemas altamente acoplados del dirigible. Este estudio propone un algoritmo de aprendizaje por refuerzo profundo, denominado Gradiente de Política Determinista Profunda Retrasada de Memoria a Largo y Corto Plazo Priorizada por Recompensa (RPL-TD3). El método incorpora una red LSTM para capturar eficazmente la influencia de los estados históricos en la toma de decisiones actual, mejorando así el rendimiento en tareas con fuertes dependencias temporales. Además, para abordar la lenta convergencia comúnmente observada en métodos fuera de política, se introduce un mecanismo de repetición de experiencias priorizadas por recompensa. Este mecanismo almacena y reproduce experiencias en forma de cadenas de datos secuenciales, las etiqueta con recompensas a nivel de secuencia y prioriza experiencias de alto valor durante el entrenamiento para acelerar la convergencia. Experimentos comparativos con otros algoritmos indican que, bajo los mismos recursos computacionales, RPL-TD3 mejora la velocidad de convergencia en un 62.5% en comparación con el algoritmo base sin el mecanismo de repetición de experiencias priorizadas por recompensa. En experimentos de simulación y generalización, el método propuesto es capaz de planificar rutas viables bajo restricciones cinemáticas y de energía. En comparación con algoritmos similares, logra el tiempo de vuelo más corto mientras mantiene un nivel relativamente alto de energía residual promedio.