Aprendizaje por Refuerzo Multi-Agente de Campo Medio Parcialmente Observable Basado en Redes de Atención de Grafos para Enjambres de UAV

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje por Refuerzo Multi-Agente de Campo Medio Parcialmente Observable Basado en Redes de Atención de Grafos para Enjambres de UAV

Autores: Yang, Min; Liu, Guanjun; Zhou, Ziyuan; Wang, Jiacun

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Aprendizaje por Refuerzo Multi-Agente de Campo Medio Parcialmente Observable Basado en Redes de Atención de Grafos para Enjambres de UAV

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículos aéreos no tripulados

Sistema multiagente

Aprendizaje por refuerzo

Campo medio

Red de atención gráfica

Coordinación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Varios sistemas de vehículos aéreos no tripulados (Multi-UAV) han demostrado recientemente ventajas significativas en algunos escenarios del mundo real, pero el rango de comunicación limitado de los UAV plantea grandes desafíos para la toma de decisiones colaborativa entre múltiples UAV. Al construir el problema de cooperación entre múltiples UAV como un sistema multi-agente (MAS), se puede realizar la toma de decisiones cooperativa entre UAV utilizando el aprendizaje por refuerzo multi-agente (MARL). Siguiendo este paradigma, este trabajo se centra en desarrollar modelos de MARL parcialmente observables que capturan información importante de observaciones locales para seleccionar acciones efectivas. Estudios previos relacionados emplean distribuciones de probabilidad o campo medio ponderado para actualizar las acciones promedio de los agentes vecinos. Sin embargo, no consideran completamente la información de características de los vecinos circundantes, lo que resulta en un óptimo local a menudo. En este artículo, proponemos un nuevo algoritmo de aprendizaje por refuerzo multi-agente parcialmente observable para remediar este defecto, que se basa en una red de atención gráfica y un campo medio parcialmente observable, y se denomina algoritmo GPMF para abreviar. GPMF utiliza un módulo de atención gráfica y un módulo de campo medio para describir cómo un agente es influenciado por las acciones de otros agentes en cada paso de tiempo. El módulo de atención gráfica consiste en un codificador de atención gráfica y un mecanismo de atención diferenciable, produciendo un gráfico dinámico para representar la efectividad de los agentes vecinos frente a los agentes centrales. El módulo de campo medio aproxima el efecto de un agente vecino sobre un agente central como el efecto promedio de los agentes vecinos efectivos. Con el objetivo de la típica tarea de escenario de redondeo cooperativo a gran escala de múltiples UAV, el algoritmo propuesto se evalúa en función del marco MAgent. Los resultados experimentales muestran que GPMF supera a las líneas base, incluidos los algoritmos de aprendizaje por refuerzo de campo medio parcialmente observable de última generación, proporcionando soporte técnico para tareas de coordinación y confrontación de múltiples UAV a gran escala en entornos con restricciones de comunicación.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro