Actor-Crítico Suave Multi-Agente Factorizado para el Seguimiento Cooperativo de Múltiples Objetivos de Enjambres de UAV
Autores: Yue, Longfei; Yang, Rennong; Zuo, Jialiang; Yan, Mengda; Zhao, Xiaoru; Lv, Maolong
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Actor-Crítico Suave Multi-Agente Factorizado para el Seguimiento Cooperativo de Múltiples Objetivos de Enjambres de UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Progreso significativo
Seguimiento de múltiples objetivos
Vehículo aéreo no tripulado
Tareas cooperativas
Métodos actor-crítico
Recompensa de entropía espacial
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En los últimos años, se ha avanzado significativamente en el seguimiento de múltiples objetivos (MTT) de enjambres de vehículos aéreos no tripulados (UAV). La mayoría de los enfoques MTT existentes se basan en la suposición ideal de una trayectoria de objetivo preestablecida. Sin embargo, en la práctica, la trayectoria de un objetivo en movimiento no puede ser conocida por el UAV de antemano, lo que representa un gran desafío para realizar un seguimiento en tiempo real. Mientras tanto, los métodos basados en el valor de múltiples agentes de última generación han logrado un progreso significativo en tareas cooperativas. En contraste, los métodos de actor-crítico de múltiples agentes (MAAC) enfrentan problemas de alta varianza y asignación de crédito. Para abordar los problemas mencionados, este documento propone un esquema de actor-crítico suave de múltiples agentes factorizado basado en el aprendizaje (FMASAC) bajo el marco de máxima entropía, donde el enjambre de UAV puede aprender MTT cooperativo en un entorno desconocido. Este método introduce la idea de descomposición de valor en el entorno MAAC para reducir la varianza en las actualizaciones de políticas y aprender una asignación de crédito eficiente. Además, para aumentar aún más la cobertura de seguimiento de detección de un enjambre de UAV, se propone una recompensa de entropía espacial (SER), inspirada en el concepto de entropía espacial, en este esquema. Los experimentos demostraron que el FMASAC puede mejorar significativamente el rendimiento cooperativo de MTT de un enjambre de UAV, y supera las líneas base existentes en términos de recompensa media y tasas de éxito de seguimiento. Además, el esquema propuesto escala con más éxito a medida que aumenta el número de UAV y objetivos.
Descripción
En los últimos años, se ha avanzado significativamente en el seguimiento de múltiples objetivos (MTT) de enjambres de vehículos aéreos no tripulados (UAV). La mayoría de los enfoques MTT existentes se basan en la suposición ideal de una trayectoria de objetivo preestablecida. Sin embargo, en la práctica, la trayectoria de un objetivo en movimiento no puede ser conocida por el UAV de antemano, lo que representa un gran desafío para realizar un seguimiento en tiempo real. Mientras tanto, los métodos basados en el valor de múltiples agentes de última generación han logrado un progreso significativo en tareas cooperativas. En contraste, los métodos de actor-crítico de múltiples agentes (MAAC) enfrentan problemas de alta varianza y asignación de crédito. Para abordar los problemas mencionados, este documento propone un esquema de actor-crítico suave de múltiples agentes factorizado basado en el aprendizaje (FMASAC) bajo el marco de máxima entropía, donde el enjambre de UAV puede aprender MTT cooperativo en un entorno desconocido. Este método introduce la idea de descomposición de valor en el entorno MAAC para reducir la varianza en las actualizaciones de políticas y aprender una asignación de crédito eficiente. Además, para aumentar aún más la cobertura de seguimiento de detección de un enjambre de UAV, se propone una recompensa de entropía espacial (SER), inspirada en el concepto de entropía espacial, en este esquema. Los experimentos demostraron que el FMASAC puede mejorar significativamente el rendimiento cooperativo de MTT de un enjambre de UAV, y supera las líneas base existentes en términos de recompensa media y tasas de éxito de seguimiento. Además, el esquema propuesto escala con más éxito a medida que aumenta el número de UAV y objetivos.