Búsqueda Dinámica de Objetivos Múltiples con UAV Basada en la Fusión de Campos Potenciales Múltiples y Modelado de Recompensas MAPPO
Autores: Hong, Xiaotong; Wang, Zhengjie; Wang, Yue; Xue, Chao; Gao, Yang
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Búsqueda Dinámica de Objetivos Múltiples con UAV Basada en la Fusión de Campos Potenciales Múltiples y Modelado de Recompensas MAPPO
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Búsqueda cooperativa
Objetivos dinámicos
Aprendizaje por refuerzo multiagente
Modelado de recompensas
Funciones de campo potencial
Mecanismo de peso de fusión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En la búsqueda cooperativa de objetivos dinámicos por múltiples UAV, la incertidumbre del objetivo y la complejidad del sistema representan desafíos significativos para la toma de decisiones cooperativa. La tecnología de aprendizaje por refuerzo multiagente (MARL) se puede utilizar para la optimización de políticas cooperativas, pero sufre de dificultades de convergencia y baja calidad de políticas en entornos escasos de recompensas, como la búsqueda de objetivos dinámicos. Para abordar este problema, este artículo propone un algoritmo de Modelado de Recompensas de Fusión de Campo Potencial Múltiple (MPRS-MAPPO). Primero, se construyen tres funciones de campo potencial para el modelado de recompensas: campo potencial de borde de probabilidad, campo potencial de probabilidad máxima y campo potencial de suma de probabilidad de cobertura. Posteriormente, se propone un mecanismo de peso de fusión adaptativo para ajustar los pesos de fusión en función de la correlación entre los valores del campo potencial y los valores de ventaja. Además, se introduce una fase de calentamiento para mejorar la estabilidad del entrenamiento. Experimentos extensivos, incluidos pruebas a múltiples escalas y físicas, demuestran que MPRS-MAPPO mejora significativamente la velocidad de convergencia, la tasa de detección y la estabilidad en comparación con MAPPO, MASAC, QMIX y Scanline. Las tasas de detección aumentaron entre un 7.87% y un 29.76%, y la incertidumbre del entrenamiento disminuyó entre un 7.43% y un 56.36%, validando la robustez, escalabilidad y aplicabilidad en el mundo real del algoritmo.
Descripción
En la búsqueda cooperativa de objetivos dinámicos por múltiples UAV, la incertidumbre del objetivo y la complejidad del sistema representan desafíos significativos para la toma de decisiones cooperativa. La tecnología de aprendizaje por refuerzo multiagente (MARL) se puede utilizar para la optimización de políticas cooperativas, pero sufre de dificultades de convergencia y baja calidad de políticas en entornos escasos de recompensas, como la búsqueda de objetivos dinámicos. Para abordar este problema, este artículo propone un algoritmo de Modelado de Recompensas de Fusión de Campo Potencial Múltiple (MPRS-MAPPO). Primero, se construyen tres funciones de campo potencial para el modelado de recompensas: campo potencial de borde de probabilidad, campo potencial de probabilidad máxima y campo potencial de suma de probabilidad de cobertura. Posteriormente, se propone un mecanismo de peso de fusión adaptativo para ajustar los pesos de fusión en función de la correlación entre los valores del campo potencial y los valores de ventaja. Además, se introduce una fase de calentamiento para mejorar la estabilidad del entrenamiento. Experimentos extensivos, incluidos pruebas a múltiples escalas y físicas, demuestran que MPRS-MAPPO mejora significativamente la velocidad de convergencia, la tasa de detección y la estabilidad en comparación con MAPPO, MASAC, QMIX y Scanline. Las tasas de detección aumentaron entre un 7.87% y un 29.76%, y la incertidumbre del entrenamiento disminuyó entre un 7.43% y un 56.36%, validando la robustez, escalabilidad y aplicabilidad en el mundo real del algoritmo.