logo móvil
Contáctanos

Aprendizaje por Refuerzo Multi-Agente de Campo Medio Parcialmente Observable Basado en Redes de Atención de Grafos para Enjambres de UAV

Autores: Yang, Min; Liu, Guanjun; Zhou, Ziyuan; Wang, Jiacun

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Aprendizaje por Refuerzo Multi-Agente de Campo Medio Parcialmente Observable Basado en Redes de Atención de Grafos para Enjambres de UAV


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículos aéreos no tripulados
Sistema multiagente
Aprendizaje por refuerzo
Campo medio
Red de atención gráfica
Coordinación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Varios sistemas de vehículos aéreos no tripulados (Multi-UAV) han demostrado recientemente ventajas significativas en algunos escenarios del mundo real, pero el rango de comunicación limitado de los UAV plantea grandes desafíos para la toma de decisiones colaborativa entre múltiples UAV. Al construir el problema de cooperación entre múltiples UAV como un sistema multi-agente (MAS), se puede realizar la toma de decisiones cooperativa entre UAV utilizando el aprendizaje por refuerzo multi-agente (MARL). Siguiendo este paradigma, este trabajo se centra en desarrollar modelos de MARL parcialmente observables que capturan información importante de observaciones locales para seleccionar acciones efectivas. Estudios previos relacionados emplean distribuciones de probabilidad o campo medio ponderado para actualizar las acciones promedio de los agentes vecinos. Sin embargo, no consideran completamente la información de características de los vecinos circundantes, lo que resulta en un óptimo local a menudo. En este artículo, proponemos un nuevo algoritmo de aprendizaje por refuerzo multi-agente parcialmente observable para remediar este defecto, que se basa en una red de atención gráfica y un campo medio parcialmente observable, y se denomina algoritmo GPMF para abreviar. GPMF utiliza un módulo de atención gráfica y un módulo de campo medio para describir cómo un agente es influenciado por las acciones de otros agentes en cada paso de tiempo. El módulo de atención gráfica consiste en un codificador de atención gráfica y un mecanismo de atención diferenciable, produciendo un gráfico dinámico para representar la efectividad de los agentes vecinos frente a los agentes centrales. El módulo de campo medio aproxima el efecto de un agente vecino sobre un agente central como el efecto promedio de los agentes vecinos efectivos. Con el objetivo de la típica tarea de escenario de redondeo cooperativo a gran escala de múltiples UAV, el algoritmo propuesto se evalúa en función del marco MAgent. Los resultados experimentales muestran que GPMF supera a las líneas base, incluidos los algoritmos de aprendizaje por refuerzo de campo medio parcialmente observable de última generación, proporcionando soporte técnico para tareas de coordinación y confrontación de múltiples UAV a gran escala en entornos con restricciones de comunicación.

Otros recursos que podrían interesarte

Temas Virtualpro