Aprendizaje por refuerzo offline de secuencia temporal para el control de transición de un novedoso vehículo aéreo no tripulado de ala basculante

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje por refuerzo offline de secuencia temporal para el control de transición de un novedoso vehículo aéreo no tripulado de ala basculante

Autores: Jin, Shiji; Zhao, Wenjie

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Aprendizaje por refuerzo offline de secuencia temporal para el control de transición de un novedoso vehículo aéreo no tripulado de ala basculante

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Vehículo aéreo no tripulado

Estrategia de control

Marco de RL offline

Dependencias temporales

Aplicaciones críticas para la seguridad

Paradigmas basados en datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones

Un vehículo aéreo no tripulado de ala basculante (Tilt-wing UAV) recién diseñado requiere una estrategia de control unificada en modos de ala rotativa, ala fija y de transición, lo que introduce desafíos significativos. Las estrategias de control existentes suelen depender de un modelado preciso o de una extensa sintonización de parámetros, lo que limita su adaptabilidad a configuraciones de vuelo que cambian dinámicamente. Aunque los algoritmos de aprendizaje por refuerzo en línea ofrecen adaptabilidad, dependen de la exploración en el mundo real, lo que plantea considerables riesgos de seguridad y costos para aplicaciones de UAV críticas para la seguridad. Para abordar este desafío, proponemos el Aprendizaje Q Constrenido por Secuencia Temporal (TSCQ), un marco de RL offline que integra un codificador-decodificador con redes recurrentes para capturar dependencias temporales. La política se restringe aún más dentro de un conjunto de datos offline recopilado a través de simulaciones de hardware en el circuito utilizando un autoencoder variacional, y se introduce un mecanismo de predicción a nivel de secuencia para garantizar la consistencia temporal a lo largo de las trayectorias de acción, mitigando así el error de extrapolación mientras se preserva la fidelidad de los datos. Los resultados experimentales demuestran que TSCQ supera significativamente la programación de ganancias, el Control Predictivo por Modelo (MPC) y el Aprendizaje Q Constrenido por Lotes (BCQ), reduciendo el RMSE del ángulo de cabeceo en hasta un 53.3% y el RMSE de la velocidad vertical en aproximadamente un 33%. Estos hallazgos subrayan el potencial de los paradigmas de RL offline impulsados por datos y conscientes de la seguridad para habilitar estrategias de control robustas y generalizables para UAV de ala basculante.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro