Un algoritmo de aprendizaje por refuerzo supervisado para controlar el vuelo en suspensión de drones
Autores: Wu, Jiying; Yang, Zhong; Zhuo, Haoze; Xu, Changliang; Zhang, Chi; He, Naifeng; Liao, Luwei; Wang, Zhiyong
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un algoritmo de aprendizaje por refuerzo supervisado para controlar el vuelo en suspensión de drones
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Drones
Aprendizaje por refuerzo
Control de flotación
Algoritmo actor-crítico
Algoritmo WAC
Localización autónoma
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La aplicación de drones que transportan diferentes dispositivos para operaciones de vuelo en suspensión se está volviendo cada vez más común, pero actualmente hay muy poca investigación que se base en métodos de aprendizaje por refuerzo para el control de suspensión, y no se ha implementado en máquinas físicas. El espacio de comportamiento del dron en relación con el control de suspensión es continuo y de gran escala, lo que dificulta que los algoritmos básicos y los algoritmos de aprendizaje por refuerzo (RL) basados en valores obtengan buenos resultados. En respuesta a este problema, este artículo aplica un algoritmo de observador-actor-crítico (WAC) al control de suspensión del dron, que puede bloquear rápidamente la dirección de exploración y lograr una alta robustez en el control de suspensión del dron, al mismo tiempo que mejora la eficiencia del aprendizaje y reduce los costos de aprendizaje. Este artículo primero utiliza el algoritmo actor-crítico basado en el valor de comportamiento Q (QAC) y el algoritmo de gradiente de política determinista profunda (DDPG) para el aprendizaje del control de suspensión del dron. Posteriormente, se propone un algoritmo actor-crítico con un observador añadido, en el que el observador utiliza un controlador PID con parámetros proporcionados por una red neuronal como monitor dinámico, transformando el proceso de aprendizaje en aprendizaje supervisado. Finalmente, este artículo utiliza una biblioteca clásica de entornos de aprendizaje por refuerzo, Gym, y un marco de aprendizaje por refuerzo actual y de uso común, PARL, para la simulación, y despliega el algoritmo en un entorno práctico. Se utiliza un método de localización autónoma basado en una estrategia de fusión de múltiples sensores para vehículos aéreos no tripulados en ejercicios prácticos. Los resultados de simulación y experimentales muestran que los episodios de entrenamiento de WAC se reducen en un 20% en comparación con el DDPG y en un 55% en comparación con el QAC, y el algoritmo propuesto tiene una mayor eficiencia de aprendizaje, una velocidad de convergencia más rápida y un efecto de suspensión más suave en comparación con el QAC y el DDPG.
Descripción
La aplicación de drones que transportan diferentes dispositivos para operaciones de vuelo en suspensión se está volviendo cada vez más común, pero actualmente hay muy poca investigación que se base en métodos de aprendizaje por refuerzo para el control de suspensión, y no se ha implementado en máquinas físicas. El espacio de comportamiento del dron en relación con el control de suspensión es continuo y de gran escala, lo que dificulta que los algoritmos básicos y los algoritmos de aprendizaje por refuerzo (RL) basados en valores obtengan buenos resultados. En respuesta a este problema, este artículo aplica un algoritmo de observador-actor-crítico (WAC) al control de suspensión del dron, que puede bloquear rápidamente la dirección de exploración y lograr una alta robustez en el control de suspensión del dron, al mismo tiempo que mejora la eficiencia del aprendizaje y reduce los costos de aprendizaje. Este artículo primero utiliza el algoritmo actor-crítico basado en el valor de comportamiento Q (QAC) y el algoritmo de gradiente de política determinista profunda (DDPG) para el aprendizaje del control de suspensión del dron. Posteriormente, se propone un algoritmo actor-crítico con un observador añadido, en el que el observador utiliza un controlador PID con parámetros proporcionados por una red neuronal como monitor dinámico, transformando el proceso de aprendizaje en aprendizaje supervisado. Finalmente, este artículo utiliza una biblioteca clásica de entornos de aprendizaje por refuerzo, Gym, y un marco de aprendizaje por refuerzo actual y de uso común, PARL, para la simulación, y despliega el algoritmo en un entorno práctico. Se utiliza un método de localización autónoma basado en una estrategia de fusión de múltiples sensores para vehículos aéreos no tripulados en ejercicios prácticos. Los resultados de simulación y experimentales muestran que los episodios de entrenamiento de WAC se reducen en un 20% en comparación con el DDPG y en un 55% en comparación con el QAC, y el algoritmo propuesto tiene una mayor eficiencia de aprendizaje, una velocidad de convergencia más rápida y un efecto de suspensión más suave en comparación con el QAC y el DDPG.