logo móvil
Contáctanos

Control de Aterrizaje Automático para UAV de Ala Fija en Canal Longitudinal Basado en Aprendizaje por Refuerzo Profundo

Autores: Li, Jinghang; Xu, Shuting; Wu, Yu; Zhang, Zhe

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Control de Aterrizaje Automático para UAV de Ala Fija en Canal Longitudinal Basado en Aprendizaje por Refuerzo Profundo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Problema de control
Proceso de aterrizaje
Vehículos aéreos no tripulados
UAVs de ala fija
Controlador PID
Redes neuronales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El objetivo es abordar el problema de control asociado con el proceso de aterrizaje de vehículos aéreos no tripulados (VANT), con un enfoque particular en los VANT de ala fija. El controlador Proporcional-Integral-Derivativo (PID) es un método de control ampliamente utilizado, que requiere la sintonización de sus parámetros para tener en cuenta las características específicas del entorno de aterrizaje y el potencial de perturbaciones externas. En contraste, las redes neuronales pueden ser modeladas para operar bajo entradas dadas, lo que permite una estrategia de control más precisa. A la luz de estas consideraciones, se propone un sistema de control basado en el aprendizaje por refuerzo, que se integra con la ley de guía PID convencional para facilitar el aterrizaje autónomo de VANT de ala fija y la sintonización automatizada de los parámetros PID mediante el uso de una Red de Aprendizaje Profundo por Refuerzo (DQN). Se construye un sistema de control PID tradicional basado en un modelo de dinámica de VANT de ala fija, con el estado de vuelo siendo discretizado. El problema de aterrizaje se transforma en un Proceso de Decisión de Markov (MDP), y la función de recompensa se diseña de acuerdo con las condiciones de aterrizaje y la actitud del VANT, respectivamente. Los vectores de estado se introducen en el marco de la red neuronal, y los parámetros PID optimizados son generados por el algoritmo de aprendizaje por refuerzo. La política óptima se obtiene a través del entrenamiento de la red, lo que permite el ajuste automático de parámetros y la optimización del sistema de control PID tradicional. Además, la eficacia de los algoritmos de control en escenarios reales se valida mediante la simulación de perturbaciones en el vector de estado del VANT y curvas de planeo ideales. Los resultados demuestran que el controlador modificado por la red DQN exhibe un efecto de convergencia y maniobrabilidad notablemente superiores en comparación con el controlador tradicional no modificado.

Otros recursos que podrían interesarte

Temas Virtualpro