Búsqueda Dinámica de Objetivos Múltiples con UAV Basada en la Fusión de Campos Potenciales Múltiples y Modelado de Recompensas MAPPO

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Búsqueda Dinámica de Objetivos Múltiples con UAV Basada en la Fusión de Campos Potenciales Múltiples y Modelado de Recompensas MAPPO

Autores: Hong, Xiaotong; Wang, Zhengjie; Wang, Yue; Xue, Chao; Gao, Yang

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Búsqueda Dinámica de Objetivos Múltiples con UAV Basada en la Fusión de Campos Potenciales Múltiples y Modelado de Recompensas MAPPO

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Búsqueda cooperativa

Objetivos dinámicos

Aprendizaje por refuerzo multiagente

Modelado de recompensas

Funciones de campo potencial

Mecanismo de peso de fusión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

En la búsqueda cooperativa de objetivos dinámicos por múltiples UAV, la incertidumbre del objetivo y la complejidad del sistema representan desafíos significativos para la toma de decisiones cooperativa. La tecnología de aprendizaje por refuerzo multiagente (MARL) se puede utilizar para la optimización de políticas cooperativas, pero sufre de dificultades de convergencia y baja calidad de políticas en entornos escasos de recompensas, como la búsqueda de objetivos dinámicos. Para abordar este problema, este artículo propone un algoritmo de Modelado de Recompensas de Fusión de Campo Potencial Múltiple (MPRS-MAPPO). Primero, se construyen tres funciones de campo potencial para el modelado de recompensas: campo potencial de borde de probabilidad, campo potencial de probabilidad máxima y campo potencial de suma de probabilidad de cobertura. Posteriormente, se propone un mecanismo de peso de fusión adaptativo para ajustar los pesos de fusión en función de la correlación entre los valores del campo potencial y los valores de ventaja. Además, se introduce una fase de calentamiento para mejorar la estabilidad del entrenamiento. Experimentos extensivos, incluidos pruebas a múltiples escalas y físicas, demuestran que MPRS-MAPPO mejora significativamente la velocidad de convergencia, la tasa de detección y la estabilidad en comparación con MAPPO, MASAC, QMIX y Scanline. Las tasas de detección aumentaron entre un 7.87% y un 29.76%, y la incertidumbre del entrenamiento disminuyó entre un 7.43% y un 56.36%, validando la robustez, escalabilidad y aplicabilidad en el mundo real del algoritmo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro