Planificación de Rutas Multi-UAV y Seguimiento Basado en Aprendizaje por Refuerzo Multi-Agente

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Planificación de Rutas Multi-UAV y Seguimiento Basado en Aprendizaje por Refuerzo Multi-Agente

Autores: Zhao, Xiaoru; Yang, Rennong; Zhong, Liangsheng; Hou, Zhiwei

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Planificación de Rutas Multi-UAV y Seguimiento Basado en Aprendizaje por Refuerzo Multi-Agente

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Colaboración multi-agente

Planificación de rutas

Datos de escaneo láser

Vehículo aéreo no tripulado

Algoritmo de actor-crítico suave

Convergencia de políticas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Dedicado a satisfacer la creciente demanda de colaboración multi-agente en escenarios complejos, este documento introduce un plan de ruta multi-agente fuera de política con compartición de parámetros y el enfoque siguiente. La planificación de rutas multi-agente actual se basa predominantemente en mapas de cuadrícula, mientras que nuestro enfoque propuesto utiliza datos de escaneo láser como entrada, proporcionando una simulación más cercana a las aplicaciones del mundo real. En este enfoque, el vehículo aéreo no tripulado (VANT) utiliza el algoritmo de actor-crítico suave (SAC) como planificador y entrena su política para converger. Esta política permite el procesamiento de extremo a extremo de los datos de escaneo láser, guiando al VANT para evitar obstáculos y alcanzar el objetivo. Al mismo tiempo, el planificador incorpora rutas generadas por un método basado en muestreo como puntos de seguimiento. Los puntos de seguimiento se actualizan continuamente a medida que avanza el VANT. Las tareas de planificación de rutas multi-VANT se facilitan y la convergencia de la política se acelera mediante la compartición de experiencias entre los agentes. Para abordar el desafío de los VANT que están inicialmente estacionarios y son demasiado cautelosos cerca del objetivo, se diseña una función de recompensa para fomentar el movimiento del VANT. Además, se establece un entorno de simulación multi-VANT para simular escenarios de VANT del mundo real para apoyar el entrenamiento y la validación del enfoque propuesto. Los resultados de la simulación destacan la efectividad del enfoque presentado tanto en el proceso de entrenamiento como en el rendimiento de la tarea. El algoritmo presentado logra una tasa de éxito del 80% para garantizar que tres VANT alcancen los puntos objetivo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro