Planificación de rutas basada en GTrXL-SAC y toma de decisiones de control consciente de obstáculos para el control autónomo de UAV
Autores: Huang, Jingyi; Cui, Yujie; Xi, Guipeng; Bai, Shuangxia; Li, Bo; Wang, Geng; Neretin, Evgeny
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Planificación de rutas basada en GTrXL-SAC y toma de decisiones de control consciente de obstáculos para el control autónomo de UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Investigación
Planificación de rutas de UAV
Control de evitación de obstáculos
DRL
Arquitectura Transformer
GTrXL-SAC
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La investigación sobre la planificación de rutas de UAV (vehículos aéreos no tripulados) y el control de evitación de obstáculos basado en DRL (aprendizaje por refuerzo profundo) aún enfrenta limitaciones, ya que los estudios anteriores utilizaron principalmente entradas perceptuales actuales mientras descuidaban la continuidad de los procesos de vuelo, lo que resultó en una baja eficiencia de aprendizaje en las primeras etapas. Para abordar estos problemas, este artículo integra DRL con la arquitectura Transformer para proponer el algoritmo GTrXL-SAC (gated Transformer-XL soft actor critic). El algoritmo realiza una incrustación posicional en datos multimodales que combinan información visual y de sensores. Aprovechando el mecanismo de autoatención de GTrXL, se enfoca de manera efectiva en diferentes segmentos de datos multimodales para la codificación mientras captura relaciones secuenciales, mejorando significativamente la precisión del reconocimiento de obstáculos y aumentando tanto la eficiencia de aprendizaje como la eficiencia de muestras. Además, el algoritmo capitaliza las características de memoria de GTrXL para generar decisiones de control actuales del dron a través del análisis combinado de experiencias históricas y estados presentes, mitigando efectivamente los problemas de dependencia a largo plazo. Los resultados experimentales en el entorno de simulación de drones AirSim demuestran que, en comparación con los algoritmos PPO y SAC, GTrXL-SAC logra una exploración y optimización de políticas más precisas, lo que permite un mejor control de la velocidad y actitud del dron para un vuelo estabilizado mientras acelera la velocidad de convergencia en casi un 20%.
Descripción
La investigación sobre la planificación de rutas de UAV (vehículos aéreos no tripulados) y el control de evitación de obstáculos basado en DRL (aprendizaje por refuerzo profundo) aún enfrenta limitaciones, ya que los estudios anteriores utilizaron principalmente entradas perceptuales actuales mientras descuidaban la continuidad de los procesos de vuelo, lo que resultó en una baja eficiencia de aprendizaje en las primeras etapas. Para abordar estos problemas, este artículo integra DRL con la arquitectura Transformer para proponer el algoritmo GTrXL-SAC (gated Transformer-XL soft actor critic). El algoritmo realiza una incrustación posicional en datos multimodales que combinan información visual y de sensores. Aprovechando el mecanismo de autoatención de GTrXL, se enfoca de manera efectiva en diferentes segmentos de datos multimodales para la codificación mientras captura relaciones secuenciales, mejorando significativamente la precisión del reconocimiento de obstáculos y aumentando tanto la eficiencia de aprendizaje como la eficiencia de muestras. Además, el algoritmo capitaliza las características de memoria de GTrXL para generar decisiones de control actuales del dron a través del análisis combinado de experiencias históricas y estados presentes, mitigando efectivamente los problemas de dependencia a largo plazo. Los resultados experimentales en el entorno de simulación de drones AirSim demuestran que, en comparación con los algoritmos PPO y SAC, GTrXL-SAC logra una exploración y optimización de políticas más precisas, lo que permite un mejor control de la velocidad y actitud del dron para un vuelo estabilizado mientras acelera la velocidad de convergencia en casi un 20%.