Un algoritmo de aprendizaje por refuerzo supervisado para controlar el vuelo en suspensión de drones

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un algoritmo de aprendizaje por refuerzo supervisado para controlar el vuelo en suspensión de drones

Autores: Wu, Jiying; Yang, Zhong; Zhuo, Haoze; Xu, Changliang; Zhang, Chi; He, Naifeng; Liao, Luwei; Wang, Zhiyong

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Un algoritmo de aprendizaje por refuerzo supervisado para controlar el vuelo en suspensión de drones

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Drones

Aprendizaje por refuerzo

Control de flotación

Algoritmo actor-crítico

Algoritmo WAC

Localización autónoma

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La aplicación de drones que transportan diferentes dispositivos para operaciones de vuelo en suspensión se está volviendo cada vez más común, pero actualmente hay muy poca investigación que se base en métodos de aprendizaje por refuerzo para el control de suspensión, y no se ha implementado en máquinas físicas. El espacio de comportamiento del dron en relación con el control de suspensión es continuo y de gran escala, lo que dificulta que los algoritmos básicos y los algoritmos de aprendizaje por refuerzo (RL) basados en valores obtengan buenos resultados. En respuesta a este problema, este artículo aplica un algoritmo de observador-actor-crítico (WAC) al control de suspensión del dron, que puede bloquear rápidamente la dirección de exploración y lograr una alta robustez en el control de suspensión del dron, al mismo tiempo que mejora la eficiencia del aprendizaje y reduce los costos de aprendizaje. Este artículo primero utiliza el algoritmo actor-crítico basado en el valor de comportamiento Q (QAC) y el algoritmo de gradiente de política determinista profunda (DDPG) para el aprendizaje del control de suspensión del dron. Posteriormente, se propone un algoritmo actor-crítico con un observador añadido, en el que el observador utiliza un controlador PID con parámetros proporcionados por una red neuronal como monitor dinámico, transformando el proceso de aprendizaje en aprendizaje supervisado. Finalmente, este artículo utiliza una biblioteca clásica de entornos de aprendizaje por refuerzo, Gym, y un marco de aprendizaje por refuerzo actual y de uso común, PARL, para la simulación, y despliega el algoritmo en un entorno práctico. Se utiliza un método de localización autónoma basado en una estrategia de fusión de múltiples sensores para vehículos aéreos no tripulados en ejercicios prácticos. Los resultados de simulación y experimentales muestran que los episodios de entrenamiento de WAC se reducen en un 20% en comparación con el DDPG y en un 55% en comparación con el QAC, y el algoritmo propuesto tiene una mayor eficiencia de aprendizaje, una velocidad de convergencia más rápida y un efecto de suspensión más suave en comparación con el QAC y el DDPG.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro