logo móvil
Contáctanos

Búsqueda Dinámica de Objetivos Múltiples con UAV Basada en la Fusión de Campos Potenciales Múltiples y Modelado de Recompensas MAPPO

Autores: Hong, Xiaotong; Wang, Zhengjie; Wang, Yue; Xue, Chao; Gao, Yang

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Búsqueda Dinámica de Objetivos Múltiples con UAV Basada en la Fusión de Campos Potenciales Múltiples y Modelado de Recompensas MAPPO


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Búsqueda cooperativa
Objetivos dinámicos
Aprendizaje por refuerzo multiagente
Modelado de recompensas
Funciones de campo potencial
Mecanismo de peso de fusión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En la búsqueda cooperativa de objetivos dinámicos por múltiples UAV, la incertidumbre del objetivo y la complejidad del sistema representan desafíos significativos para la toma de decisiones cooperativa. La tecnología de aprendizaje por refuerzo multiagente (MARL) se puede utilizar para la optimización de políticas cooperativas, pero sufre de dificultades de convergencia y baja calidad de políticas en entornos escasos de recompensas, como la búsqueda de objetivos dinámicos. Para abordar este problema, este artículo propone un algoritmo de Modelado de Recompensas de Fusión de Campo Potencial Múltiple (MPRS-MAPPO). Primero, se construyen tres funciones de campo potencial para el modelado de recompensas: campo potencial de borde de probabilidad, campo potencial de probabilidad máxima y campo potencial de suma de probabilidad de cobertura. Posteriormente, se propone un mecanismo de peso de fusión adaptativo para ajustar los pesos de fusión en función de la correlación entre los valores del campo potencial y los valores de ventaja. Además, se introduce una fase de calentamiento para mejorar la estabilidad del entrenamiento. Experimentos extensivos, incluidos pruebas a múltiples escalas y físicas, demuestran que MPRS-MAPPO mejora significativamente la velocidad de convergencia, la tasa de detección y la estabilidad en comparación con MAPPO, MASAC, QMIX y Scanline. Las tasas de detección aumentaron entre un 7.87% y un 29.76%, y la incertidumbre del entrenamiento disminuyó entre un 7.43% y un 56.36%, validando la robustez, escalabilidad y aplicabilidad en el mundo real del algoritmo.

Otros recursos que podrían interesarte

Temas Virtualpro