PPO-Exp: Manteniendo la Formación de UAV de Ala Fija con Aprendizaje por Refuerzo Profundo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

PPO-Exp: Manteniendo la Formación de UAV de Ala Fija con Aprendizaje por Refuerzo Profundo

Autores: Xu, Dan; Guo, Yunxiao; Yu, Zhongyi; Wang, Zhenfeng; Lan, Rongze; Zhao, Runhao; Xie, Xinjia; Long, Han

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

PPO-Exp: Manteniendo la Formación de UAV de Ala Fija con Aprendizaje por Refuerzo Profundo

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Rebaño

Vehículos aéreos no tripulados de ala fija

Aprendizaje por refuerzo

Método centralizado de mantenimiento de formación

Protocolo de comunicación

Optimización de Política Proximal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El agrupamiento para vehículos aéreos no tripulados (UAV) de ala fija es un desafío extremadamente complejo debido al problema de control de los UAV de ala fija y la dificultad de coordenadas del sistema. Recientemente, los enfoques de agrupamiento basados en el aprendizaje por refuerzo han atraído atención. Sin embargo, los métodos actuales también requieren que cada UAV tome la decisión de manera descentralizada, lo que aumenta el costo y la computación de todo el sistema de UAV. Este artículo investiga un sistema de formación de UAV de bajo costo que consiste en un líder (equipado con el chip de inteligencia) y cinco seguidores (sin el chip de inteligencia), y propone un método centralizado de mantenimiento de formación sin colisiones. Se considera la comunicación en todo el proceso y se diseña el protocolo minimizando el costo de comunicación. Además, se proporciona un análisis del algoritmo de Optimización de Política Proximal (PPO); el artículo deriva el límite del error de estimación y revela la relación entre el límite y la exploración. Para alentar al agente a equilibrar su exploración y el límite del error de estimación, se propone una versión de PPO llamada PPO-Exploración (PPO-Exp). Puede ajustar el parámetro de restricción de recorte y hacer que el mecanismo de exploración sea más flexible. Los resultados de los experimentos muestran que PPO-Exp tiene un mejor rendimiento que los algoritmos actuales en estas tareas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro