Aprendizaje por Refuerzo para el Control de Actitud de Aeronaves de Doble Control en Seis Grados de Libertad con Incertidumbre del Sistema
Autores: Yuan, Yuqi; Zhou, Di
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aprendizaje por Refuerzo para el Control de Actitud de Aeronaves de Doble Control en Seis Grados de Libertad con Incertidumbre del Sistema
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Aprendizaje por refuerzo
Control de actitud en 6 grados de libertad
Memoria a Largo y Corto Plazo (LSTM)
Programación dinámica adaptativa (ADP)
Método de Lyapunov
Incertidumbre del sistema
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Este artículo propone una estrategia de control casi óptima basada en el aprendizaje por refuerzo, que se aplica al control de actitud de aeronaves de doble control con seis grados de libertad (6-DoF). Con el fin de resolver el problema de que el aprendizaje por refuerzo existente es difícil de aplicar a sistemas de múltiples entradas y múltiples salidas (MIMO) de alta dimensión, se introduce la red neuronal de memoria a largo y corto plazo (LSTM) para reemplazar la red polinómica en la técnica de programación dinámica adaptativa (ADP). Mientras tanto, basado en el método de Lyapunov, se presenta una nueva ley de actualización adaptativa en línea de los pesos de la red neuronal LSTM, y se verifica la estabilidad del sistema. En el proceso de simulación, el algoritmo propuesto en este artículo se aplica al problema de control de actitud de seis grados de libertad de aeronaves de doble control con incertidumbre del sistema. Los resultados de la simulación muestran que el algoritmo puede lograr un control casi óptimo.
Descripción
Este artículo propone una estrategia de control casi óptima basada en el aprendizaje por refuerzo, que se aplica al control de actitud de aeronaves de doble control con seis grados de libertad (6-DoF). Con el fin de resolver el problema de que el aprendizaje por refuerzo existente es difícil de aplicar a sistemas de múltiples entradas y múltiples salidas (MIMO) de alta dimensión, se introduce la red neuronal de memoria a largo y corto plazo (LSTM) para reemplazar la red polinómica en la técnica de programación dinámica adaptativa (ADP). Mientras tanto, basado en el método de Lyapunov, se presenta una nueva ley de actualización adaptativa en línea de los pesos de la red neuronal LSTM, y se verifica la estabilidad del sistema. En el proceso de simulación, el algoritmo propuesto en este artículo se aplica al problema de control de actitud de seis grados de libertad de aeronaves de doble control con incertidumbre del sistema. Los resultados de la simulación muestran que el algoritmo puede lograr un control casi óptimo.