Mejorando el Acoplamiento Aéreo de UAV: Un Enfoque Híbrido que Combina Aprendizaje por Refuerzo Offline y Online
Autores: Feng, Yuting; Yang, Tao; Yu, Yushu
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mejorando el Acoplamiento Aéreo de UAV: Un Enfoque Híbrido que Combina Aprendizaje por Refuerzo Offline y Online
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Estudio
Maniobras de acoplamiento
Vehículos aéreos no tripulados
Aprendizaje por refuerzo
Fuera de línea
En línea
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En nuestro estudio, exploramos la tarea de realizar maniobras de acoplamiento entre dos vehículos aéreos no tripulados (UAV) utilizando una combinación de métodos de aprendizaje por refuerzo (RL) en línea y fuera de línea. Esta tarea requiere que un UAV logre un acoplamiento externo mientras mantiene un control de vuelo estable, representando dos tipos distintos de objetivos a nivel de ejecución de la tarea. El entrenamiento directo en línea de RL podría llevar a un olvido catastrófico, resultando en un fracaso del entrenamiento. Para superar estos desafíos, diseñamos un controlador experto basado en reglas y acumulamos un extenso conjunto de datos. Con base en esto, diseñamos simultáneamente una serie de recompensas y entrenamos una política guía a través de RL fuera de línea. Luego, realizamos una verificación comparativa de diferentes métodos de RL, seleccionando finalmente RL en línea para afinar el modelo entrenado fuera de línea. Esta estrategia combina eficazmente la eficiencia de RL fuera de línea con las capacidades exploratorias de RL en línea. Nuestro enfoque mejora la tasa de éxito de la tarea de acoplamiento aéreo del UAV, aumentando del 40% bajo la política experta al 95%.
Descripción
En nuestro estudio, exploramos la tarea de realizar maniobras de acoplamiento entre dos vehículos aéreos no tripulados (UAV) utilizando una combinación de métodos de aprendizaje por refuerzo (RL) en línea y fuera de línea. Esta tarea requiere que un UAV logre un acoplamiento externo mientras mantiene un control de vuelo estable, representando dos tipos distintos de objetivos a nivel de ejecución de la tarea. El entrenamiento directo en línea de RL podría llevar a un olvido catastrófico, resultando en un fracaso del entrenamiento. Para superar estos desafíos, diseñamos un controlador experto basado en reglas y acumulamos un extenso conjunto de datos. Con base en esto, diseñamos simultáneamente una serie de recompensas y entrenamos una política guía a través de RL fuera de línea. Luego, realizamos una verificación comparativa de diferentes métodos de RL, seleccionando finalmente RL en línea para afinar el modelo entrenado fuera de línea. Esta estrategia combina eficazmente la eficiencia de RL fuera de línea con las capacidades exploratorias de RL en línea. Nuestro enfoque mejora la tasa de éxito de la tarea de acoplamiento aéreo del UAV, aumentando del 40% bajo la política experta al 95%.