Aprendizaje por Refuerzo Profundo Off-Policy para la Planificación de Rutas de Aerostatos Estratosféricos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje por Refuerzo Profundo Off-Policy para la Planificación de Rutas de Aerostatos Estratosféricos

Autores: Xie, Jiawen; Huang, Wanning; Miao, Jinggang; Li, Jialong; Cao, Shenghong

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Aprendizaje por Refuerzo Profundo Off-Policy para la Planificación de Rutas de Aerostatos Estratosféricos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Dirigible estratosférico

Transferencia autónoma

Algoritmo de aprendizaje por refuerzo profundo

Red LSTM

Mecanismo de repetición de experiencias priorizadas por recompensa

Velocidad de convergencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El dirigible estratosférico es una plataforma vital en aplicaciones de casi espacio, y lograr una transferencia autónoma se ha convertido en un enfoque clave de investigación para satisfacer las demandas de diversos escenarios de misión. El desafío principal radica en planificar rutas viables y eficientes, lo cual es difícil para los algoritmos tradicionales debido al entorno variable en el tiempo y a la dinámica de múltiples sistemas altamente acoplados del dirigible. Este estudio propone un algoritmo de aprendizaje por refuerzo profundo, denominado Gradiente de Política Determinista Profunda Retrasada de Memoria a Largo y Corto Plazo Priorizada por Recompensa (RPL-TD3). El método incorpora una red LSTM para capturar eficazmente la influencia de los estados históricos en la toma de decisiones actual, mejorando así el rendimiento en tareas con fuertes dependencias temporales. Además, para abordar la lenta convergencia comúnmente observada en métodos fuera de política, se introduce un mecanismo de repetición de experiencias priorizadas por recompensa. Este mecanismo almacena y reproduce experiencias en forma de cadenas de datos secuenciales, las etiqueta con recompensas a nivel de secuencia y prioriza experiencias de alto valor durante el entrenamiento para acelerar la convergencia. Experimentos comparativos con otros algoritmos indican que, bajo los mismos recursos computacionales, RPL-TD3 mejora la velocidad de convergencia en un 62.5% en comparación con el algoritmo base sin el mecanismo de repetición de experiencias priorizadas por recompensa. En experimentos de simulación y generalización, el método propuesto es capaz de planificar rutas viables bajo restricciones cinemáticas y de energía. En comparación con algoritmos similares, logra el tiempo de vuelo más corto mientras mantiene un nivel relativamente alto de energía residual promedio.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro