Planificación de Rutas Multi-UAV y Seguimiento Basado en Aprendizaje por Refuerzo Multi-Agente
Autores: Zhao, Xiaoru; Yang, Rennong; Zhong, Liangsheng; Hou, Zhiwei
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Planificación de Rutas Multi-UAV y Seguimiento Basado en Aprendizaje por Refuerzo Multi-Agente
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Colaboración multi-agente
Planificación de rutas
Datos de escaneo láser
Vehículo aéreo no tripulado
Algoritmo de actor-crítico suave
Convergencia de políticas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Dedicado a satisfacer la creciente demanda de colaboración multi-agente en escenarios complejos, este documento introduce un plan de ruta multi-agente fuera de política con compartición de parámetros y el enfoque siguiente. La planificación de rutas multi-agente actual se basa predominantemente en mapas de cuadrícula, mientras que nuestro enfoque propuesto utiliza datos de escaneo láser como entrada, proporcionando una simulación más cercana a las aplicaciones del mundo real. En este enfoque, el vehículo aéreo no tripulado (VANT) utiliza el algoritmo de actor-crítico suave (SAC) como planificador y entrena su política para converger. Esta política permite el procesamiento de extremo a extremo de los datos de escaneo láser, guiando al VANT para evitar obstáculos y alcanzar el objetivo. Al mismo tiempo, el planificador incorpora rutas generadas por un método basado en muestreo como puntos de seguimiento. Los puntos de seguimiento se actualizan continuamente a medida que avanza el VANT. Las tareas de planificación de rutas multi-VANT se facilitan y la convergencia de la política se acelera mediante la compartición de experiencias entre los agentes. Para abordar el desafío de los VANT que están inicialmente estacionarios y son demasiado cautelosos cerca del objetivo, se diseña una función de recompensa para fomentar el movimiento del VANT. Además, se establece un entorno de simulación multi-VANT para simular escenarios de VANT del mundo real para apoyar el entrenamiento y la validación del enfoque propuesto. Los resultados de la simulación destacan la efectividad del enfoque presentado tanto en el proceso de entrenamiento como en el rendimiento de la tarea. El algoritmo presentado logra una tasa de éxito del 80% para garantizar que tres VANT alcancen los puntos objetivo.
Descripción
Dedicado a satisfacer la creciente demanda de colaboración multi-agente en escenarios complejos, este documento introduce un plan de ruta multi-agente fuera de política con compartición de parámetros y el enfoque siguiente. La planificación de rutas multi-agente actual se basa predominantemente en mapas de cuadrícula, mientras que nuestro enfoque propuesto utiliza datos de escaneo láser como entrada, proporcionando una simulación más cercana a las aplicaciones del mundo real. En este enfoque, el vehículo aéreo no tripulado (VANT) utiliza el algoritmo de actor-crítico suave (SAC) como planificador y entrena su política para converger. Esta política permite el procesamiento de extremo a extremo de los datos de escaneo láser, guiando al VANT para evitar obstáculos y alcanzar el objetivo. Al mismo tiempo, el planificador incorpora rutas generadas por un método basado en muestreo como puntos de seguimiento. Los puntos de seguimiento se actualizan continuamente a medida que avanza el VANT. Las tareas de planificación de rutas multi-VANT se facilitan y la convergencia de la política se acelera mediante la compartición de experiencias entre los agentes. Para abordar el desafío de los VANT que están inicialmente estacionarios y son demasiado cautelosos cerca del objetivo, se diseña una función de recompensa para fomentar el movimiento del VANT. Además, se establece un entorno de simulación multi-VANT para simular escenarios de VANT del mundo real para apoyar el entrenamiento y la validación del enfoque propuesto. Los resultados de la simulación destacan la efectividad del enfoque presentado tanto en el proceso de entrenamiento como en el rendimiento de la tarea. El algoritmo presentado logra una tasa de éxito del 80% para garantizar que tres VANT alcancen los puntos objetivo.