logo móvil
Contáctanos

PPO-Exp: Manteniendo la Formación de UAV de Ala Fija con Aprendizaje por Refuerzo Profundo

Autores: Xu, Dan; Guo, Yunxiao; Yu, Zhongyi; Wang, Zhenfeng; Lan, Rongze; Zhao, Runhao; Xie, Xinjia; Long, Han

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

PPO-Exp: Manteniendo la Formación de UAV de Ala Fija con Aprendizaje por Refuerzo Profundo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Rebaño
Vehículos aéreos no tripulados de ala fija
Aprendizaje por refuerzo
Método centralizado de mantenimiento de formación
Protocolo de comunicación
Optimización de Política Proximal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El agrupamiento para vehículos aéreos no tripulados (UAV) de ala fija es un desafío extremadamente complejo debido al problema de control de los UAV de ala fija y la dificultad de coordenadas del sistema. Recientemente, los enfoques de agrupamiento basados en el aprendizaje por refuerzo han atraído atención. Sin embargo, los métodos actuales también requieren que cada UAV tome la decisión de manera descentralizada, lo que aumenta el costo y la computación de todo el sistema de UAV. Este artículo investiga un sistema de formación de UAV de bajo costo que consiste en un líder (equipado con el chip de inteligencia) y cinco seguidores (sin el chip de inteligencia), y propone un método centralizado de mantenimiento de formación sin colisiones. Se considera la comunicación en todo el proceso y se diseña el protocolo minimizando el costo de comunicación. Además, se proporciona un análisis del algoritmo de Optimización de Política Proximal (PPO); el artículo deriva el límite del error de estimación y revela la relación entre el límite y la exploración. Para alentar al agente a equilibrar su exploración y el límite del error de estimación, se propone una versión de PPO llamada PPO-Exploración (PPO-Exp). Puede ajustar el parámetro de restricción de recorte y hacer que el mecanismo de exploración sea más flexible. Los resultados de los experimentos muestran que PPO-Exp tiene un mejor rendimiento que los algoritmos actuales en estas tareas.

Otros recursos que podrían interesarte

Temas Virtualpro