Aprendizaje por refuerzo seguro para el control de transición de UAVs con ventilador ductado
Autores: Fu, Yanbo; Zhao, Wenjie; Liu, Liu
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Aprendizaje por refuerzo seguro para el control de transición de UAVs con ventilador ductado
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Ventilador ductado
Sentado en la cola
UAVs
Aprendizaje por refuerzo
Control de transición
Algoritmo CPO
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los vehículos aéreos no tripulados (UAV) con ventiladores ductados y capacidad de despegue y aterrizaje vertical ofrecen versatilidad y beneficios únicos, atrayendo una atención significativa en diversas aplicaciones. Este estudio se centra en desarrollar un método seguro de aprendizaje por refuerzo para el control de la transición de regreso entre el modo de vuelo nivelado y el modo de suspensión para UAV con ventiladores ductados. Nuestro método permite el control de la transición con un cambio mínimo de altitud y tiempo de transición, mientras se adhiere a la restricción de velocidad. Empleamos los algoritmos de Optimización de Políticas de Región de Confianza, Optimización de Políticas Proximales con Lagrangiano y Optimización de Políticas Constriñadas (CPO) para el entrenamiento del controlador, mostrando la superioridad del algoritmo CPO y la necesidad de la restricción de velocidad. La trayectoria de transición lograda utilizando el algoritmo CPO se asemeja estrechamente a la trayectoria óptima obtenida a través del conocido software GPOPS-II con el solucionador SNOPT. Mientras tanto, el algoritmo CPO también exhibe una fuerte robustez ante perturbaciones desconocidas de los parámetros del modelo UAV y disturbios del viento.
Descripción
Los vehículos aéreos no tripulados (UAV) con ventiladores ductados y capacidad de despegue y aterrizaje vertical ofrecen versatilidad y beneficios únicos, atrayendo una atención significativa en diversas aplicaciones. Este estudio se centra en desarrollar un método seguro de aprendizaje por refuerzo para el control de la transición de regreso entre el modo de vuelo nivelado y el modo de suspensión para UAV con ventiladores ductados. Nuestro método permite el control de la transición con un cambio mínimo de altitud y tiempo de transición, mientras se adhiere a la restricción de velocidad. Empleamos los algoritmos de Optimización de Políticas de Región de Confianza, Optimización de Políticas Proximales con Lagrangiano y Optimización de Políticas Constriñadas (CPO) para el entrenamiento del controlador, mostrando la superioridad del algoritmo CPO y la necesidad de la restricción de velocidad. La trayectoria de transición lograda utilizando el algoritmo CPO se asemeja estrechamente a la trayectoria óptima obtenida a través del conocido software GPOPS-II con el solucionador SNOPT. Mientras tanto, el algoritmo CPO también exhibe una fuerte robustez ante perturbaciones desconocidas de los parámetros del modelo UAV y disturbios del viento.