Generalización y Explotación: Meta-GSAC para la Planificación de Rutas de UAV en Múltiples Tareas y Evitación de Obstáculos
Autores: Huang, Jingyi; Bai, Shuangxia; Huai, Liangliang; Cui, Yujie; Li, Bo; Wan, Kaifang
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Generalización y Explotación: Meta-GSAC para la Planificación de Rutas de UAV en Múltiples Tareas y Evitación de Obstáculos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje profundo por refuerzo
Transformador-XL con puerta meta y actor-crítico suave
Adaptabilidad
Generalización
Entornos dinámicos
Meta-aprendizaje multitarea
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El aprendizaje por refuerzo profundo (DRL) se aplica extensamente en el control de vehículos aéreos no tripulados (UAV), pero enfrenta desafíos críticos en cuanto a la adaptabilidad y la generalización en entornos dinámicos. Para abordar estas limitaciones, este documento propone el algoritmo Meta Gated Transformer-XL Soft Actor-Critic (Meta-GSAC). Este marco integra un módulo Gated Transformer-XL para capturar dependencias temporales a largo plazo a partir de entradas multimodales e incorpora el algoritmo Reptile para facilitar el meta-aprendizaje multitarea. Los resultados experimentales demuestran que Meta-GSAC supera significativamente las líneas base estándar. Notablemente, logra una convergencia óptima de políticas con aproximadamente un 50% menos de épocas de entrenamiento, mientras elimina de manera efectiva las oscilaciones de control de alta frecuencia observadas en la línea base GSAC. Además, el método propuesto exhibe capacidades superiores de adaptación con pocos ejemplos, lo que permite al UAV adaptarse rápidamente a nuevos escenarios de tareas con actualizaciones de gradiente mínimas.
Descripción
El aprendizaje por refuerzo profundo (DRL) se aplica extensamente en el control de vehículos aéreos no tripulados (UAV), pero enfrenta desafíos críticos en cuanto a la adaptabilidad y la generalización en entornos dinámicos. Para abordar estas limitaciones, este documento propone el algoritmo Meta Gated Transformer-XL Soft Actor-Critic (Meta-GSAC). Este marco integra un módulo Gated Transformer-XL para capturar dependencias temporales a largo plazo a partir de entradas multimodales e incorpora el algoritmo Reptile para facilitar el meta-aprendizaje multitarea. Los resultados experimentales demuestran que Meta-GSAC supera significativamente las líneas base estándar. Notablemente, logra una convergencia óptima de políticas con aproximadamente un 50% menos de épocas de entrenamiento, mientras elimina de manera efectiva las oscilaciones de control de alta frecuencia observadas en la línea base GSAC. Además, el método propuesto exhibe capacidades superiores de adaptación con pocos ejemplos, lo que permite al UAV adaptarse rápidamente a nuevos escenarios de tareas con actualizaciones de gradiente mínimas.