PPO-Exp: Manteniendo la Formación de UAV de Ala Fija con Aprendizaje por Refuerzo Profundo
Autores: Xu, Dan; Guo, Yunxiao; Yu, Zhongyi; Wang, Zhenfeng; Lan, Rongze; Zhao, Runhao; Xie, Xinjia; Long, Han
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
PPO-Exp: Manteniendo la Formación de UAV de Ala Fija con Aprendizaje por Refuerzo Profundo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Rebaño
Vehículos aéreos no tripulados de ala fija
Aprendizaje por refuerzo
Método centralizado de mantenimiento de formación
Protocolo de comunicación
Optimización de Política Proximal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El agrupamiento para vehículos aéreos no tripulados (UAV) de ala fija es un desafío extremadamente complejo debido al problema de control de los UAV de ala fija y la dificultad de coordenadas del sistema. Recientemente, los enfoques de agrupamiento basados en el aprendizaje por refuerzo han atraído atención. Sin embargo, los métodos actuales también requieren que cada UAV tome la decisión de manera descentralizada, lo que aumenta el costo y la computación de todo el sistema de UAV. Este artículo investiga un sistema de formación de UAV de bajo costo que consiste en un líder (equipado con el chip de inteligencia) y cinco seguidores (sin el chip de inteligencia), y propone un método centralizado de mantenimiento de formación sin colisiones. Se considera la comunicación en todo el proceso y se diseña el protocolo minimizando el costo de comunicación. Además, se proporciona un análisis del algoritmo de Optimización de Política Proximal (PPO); el artículo deriva el límite del error de estimación y revela la relación entre el límite y la exploración. Para alentar al agente a equilibrar su exploración y el límite del error de estimación, se propone una versión de PPO llamada PPO-Exploración (PPO-Exp). Puede ajustar el parámetro de restricción de recorte y hacer que el mecanismo de exploración sea más flexible. Los resultados de los experimentos muestran que PPO-Exp tiene un mejor rendimiento que los algoritmos actuales en estas tareas.
Descripción
El agrupamiento para vehículos aéreos no tripulados (UAV) de ala fija es un desafío extremadamente complejo debido al problema de control de los UAV de ala fija y la dificultad de coordenadas del sistema. Recientemente, los enfoques de agrupamiento basados en el aprendizaje por refuerzo han atraído atención. Sin embargo, los métodos actuales también requieren que cada UAV tome la decisión de manera descentralizada, lo que aumenta el costo y la computación de todo el sistema de UAV. Este artículo investiga un sistema de formación de UAV de bajo costo que consiste en un líder (equipado con el chip de inteligencia) y cinco seguidores (sin el chip de inteligencia), y propone un método centralizado de mantenimiento de formación sin colisiones. Se considera la comunicación en todo el proceso y se diseña el protocolo minimizando el costo de comunicación. Además, se proporciona un análisis del algoritmo de Optimización de Política Proximal (PPO); el artículo deriva el límite del error de estimación y revela la relación entre el límite y la exploración. Para alentar al agente a equilibrar su exploración y el límite del error de estimación, se propone una versión de PPO llamada PPO-Exploración (PPO-Exp). Puede ajustar el parámetro de restricción de recorte y hacer que el mecanismo de exploración sea más flexible. Los resultados de los experimentos muestran que PPO-Exp tiene un mejor rendimiento que los algoritmos actuales en estas tareas.