Aprendizaje por refuerzo offline de secuencia temporal para el control de transición de un novedoso vehículo aéreo no tripulado de ala basculante
Autores: Jin, Shiji; Zhao, Wenjie
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje por refuerzo offline de secuencia temporal para el control de transición de un novedoso vehículo aéreo no tripulado de ala basculante
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Vehículo aéreo no tripulado
Estrategia de control
Marco de RL offline
Dependencias temporales
Aplicaciones críticas para la seguridad
Paradigmas basados en datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Un vehículo aéreo no tripulado de ala basculante (Tilt-wing UAV) recién diseñado requiere una estrategia de control unificada en modos de ala rotativa, ala fija y de transición, lo que introduce desafíos significativos. Las estrategias de control existentes suelen depender de un modelado preciso o de una extensa sintonización de parámetros, lo que limita su adaptabilidad a configuraciones de vuelo que cambian dinámicamente. Aunque los algoritmos de aprendizaje por refuerzo en línea ofrecen adaptabilidad, dependen de la exploración en el mundo real, lo que plantea considerables riesgos de seguridad y costos para aplicaciones de UAV críticas para la seguridad. Para abordar este desafío, proponemos el Aprendizaje Q Constrenido por Secuencia Temporal (TSCQ), un marco de RL offline que integra un codificador-decodificador con redes recurrentes para capturar dependencias temporales. La política se restringe aún más dentro de un conjunto de datos offline recopilado a través de simulaciones de hardware en el circuito utilizando un autoencoder variacional, y se introduce un mecanismo de predicción a nivel de secuencia para garantizar la consistencia temporal a lo largo de las trayectorias de acción, mitigando así el error de extrapolación mientras se preserva la fidelidad de los datos. Los resultados experimentales demuestran que TSCQ supera significativamente la programación de ganancias, el Control Predictivo por Modelo (MPC) y el Aprendizaje Q Constrenido por Lotes (BCQ), reduciendo el RMSE del ángulo de cabeceo en hasta un 53.3% y el RMSE de la velocidad vertical en aproximadamente un 33%. Estos hallazgos subrayan el potencial de los paradigmas de RL offline impulsados por datos y conscientes de la seguridad para habilitar estrategias de control robustas y generalizables para UAV de ala basculante.
Descripción
Un vehículo aéreo no tripulado de ala basculante (Tilt-wing UAV) recién diseñado requiere una estrategia de control unificada en modos de ala rotativa, ala fija y de transición, lo que introduce desafíos significativos. Las estrategias de control existentes suelen depender de un modelado preciso o de una extensa sintonización de parámetros, lo que limita su adaptabilidad a configuraciones de vuelo que cambian dinámicamente. Aunque los algoritmos de aprendizaje por refuerzo en línea ofrecen adaptabilidad, dependen de la exploración en el mundo real, lo que plantea considerables riesgos de seguridad y costos para aplicaciones de UAV críticas para la seguridad. Para abordar este desafío, proponemos el Aprendizaje Q Constrenido por Secuencia Temporal (TSCQ), un marco de RL offline que integra un codificador-decodificador con redes recurrentes para capturar dependencias temporales. La política se restringe aún más dentro de un conjunto de datos offline recopilado a través de simulaciones de hardware en el circuito utilizando un autoencoder variacional, y se introduce un mecanismo de predicción a nivel de secuencia para garantizar la consistencia temporal a lo largo de las trayectorias de acción, mitigando así el error de extrapolación mientras se preserva la fidelidad de los datos. Los resultados experimentales demuestran que TSCQ supera significativamente la programación de ganancias, el Control Predictivo por Modelo (MPC) y el Aprendizaje Q Constrenido por Lotes (BCQ), reduciendo el RMSE del ángulo de cabeceo en hasta un 53.3% y el RMSE de la velocidad vertical en aproximadamente un 33%. Estos hallazgos subrayan el potencial de los paradigmas de RL offline impulsados por datos y conscientes de la seguridad para habilitar estrategias de control robustas y generalizables para UAV de ala basculante.