logo móvil
Contáctanos

Aprendizaje por Refuerzo Profundo Off-Policy para la Planificación de Rutas de Aerostatos Estratosféricos

Autores: Xie, Jiawen; Huang, Wanning; Miao, Jinggang; Li, Jialong; Cao, Shenghong

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Aprendizaje por Refuerzo Profundo Off-Policy para la Planificación de Rutas de Aerostatos Estratosféricos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Dirigible estratosférico
Transferencia autónoma
Algoritmo de aprendizaje por refuerzo profundo
Red LSTM
Mecanismo de repetición de experiencias priorizadas por recompensa
Velocidad de convergencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El dirigible estratosférico es una plataforma vital en aplicaciones de casi espacio, y lograr una transferencia autónoma se ha convertido en un enfoque clave de investigación para satisfacer las demandas de diversos escenarios de misión. El desafío principal radica en planificar rutas viables y eficientes, lo cual es difícil para los algoritmos tradicionales debido al entorno variable en el tiempo y a la dinámica de múltiples sistemas altamente acoplados del dirigible. Este estudio propone un algoritmo de aprendizaje por refuerzo profundo, denominado Gradiente de Política Determinista Profunda Retrasada de Memoria a Largo y Corto Plazo Priorizada por Recompensa (RPL-TD3). El método incorpora una red LSTM para capturar eficazmente la influencia de los estados históricos en la toma de decisiones actual, mejorando así el rendimiento en tareas con fuertes dependencias temporales. Además, para abordar la lenta convergencia comúnmente observada en métodos fuera de política, se introduce un mecanismo de repetición de experiencias priorizadas por recompensa. Este mecanismo almacena y reproduce experiencias en forma de cadenas de datos secuenciales, las etiqueta con recompensas a nivel de secuencia y prioriza experiencias de alto valor durante el entrenamiento para acelerar la convergencia. Experimentos comparativos con otros algoritmos indican que, bajo los mismos recursos computacionales, RPL-TD3 mejora la velocidad de convergencia en un 62.5% en comparación con el algoritmo base sin el mecanismo de repetición de experiencias priorizadas por recompensa. En experimentos de simulación y generalización, el método propuesto es capaz de planificar rutas viables bajo restricciones cinemáticas y de energía. En comparación con algoritmos similares, logra el tiempo de vuelo más corto mientras mantiene un nivel relativamente alto de energía residual promedio.

Otros recursos que podrían interesarte

Temas Virtualpro