Optimización de Estrategias de Cuerpo Multi-Inteligente para Tareas Adversariales de UAV Basadas en MADDPG-SASP
Autores: Xiao, Zhenfei; Liu, Fuyong; Wang, Qian
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Optimización de Estrategias de Cuerpo Multi-Inteligente para Tareas Adversariales de UAV Basadas en MADDPG-SASP
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Sistemas multiagente inteligentes
Desafíos
Optimización de estrategias
MADDPG-SASP
Mecanismo de autoatención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En los sistemas multiagente inteligentes, particularmente en escenarios de combate con drones, los desafíos planteados por entornos que cambian rápidamente y la información incompleta dificultan significativamente la optimización efectiva de estrategias. Los enfoques tradicionales de aprendizaje por refuerzo multiagente (MARL) a menudo encuentran dificultades para adaptarse a la naturaleza dinámica de los entornos adversariales, especialmente cuando las estrategias enemigas están sujetas a una evolución continua, lo que complica la capacidad de los agentes para responder de manera efectiva. Para abordar estos desafíos, este documento presenta un nuevo marco mejorado de MARL, MADDPG-SASP, que integra un mecanismo de autoatención mejorado con autojuego dentro del algoritmo MADDPG, facilitando así una optimización superior de estrategias. El mecanismo de autoatención permite a los agentes extraer de manera adaptativa características ambientales críticas, mejorando tanto la velocidad como la precisión de los procesos de percepción y toma de decisiones. Al mismo tiempo, el mecanismo de auto-batalla adaptativa refina iterativamente las estrategias de los agentes a través de interacciones adversariales continuas, fortaleciendo así la estabilidad y flexibilidad de sus respuestas. Los resultados empíricos indican que después de 600 rondas, la tasa de victorias de los agentes que emplean este marco vio un aumento sustancial, pasando del 26.17% con el MADDPG original a un perfecto 100%. Una validación adicional a través de experimentos comparativos subraya la eficacia del método, demostrando ventajas considerables en la optimización de estrategias y el rendimiento de los agentes en entornos complejos y dinámicos. Además, en el entorno de combate del escenario Depredador-Presa, cuando el lado enemigo emplea una estrategia multiagente, la tasa de victorias para el lado del agente dron puede alcanzar el 98.5% y el 100%.
Descripción
En los sistemas multiagente inteligentes, particularmente en escenarios de combate con drones, los desafíos planteados por entornos que cambian rápidamente y la información incompleta dificultan significativamente la optimización efectiva de estrategias. Los enfoques tradicionales de aprendizaje por refuerzo multiagente (MARL) a menudo encuentran dificultades para adaptarse a la naturaleza dinámica de los entornos adversariales, especialmente cuando las estrategias enemigas están sujetas a una evolución continua, lo que complica la capacidad de los agentes para responder de manera efectiva. Para abordar estos desafíos, este documento presenta un nuevo marco mejorado de MARL, MADDPG-SASP, que integra un mecanismo de autoatención mejorado con autojuego dentro del algoritmo MADDPG, facilitando así una optimización superior de estrategias. El mecanismo de autoatención permite a los agentes extraer de manera adaptativa características ambientales críticas, mejorando tanto la velocidad como la precisión de los procesos de percepción y toma de decisiones. Al mismo tiempo, el mecanismo de auto-batalla adaptativa refina iterativamente las estrategias de los agentes a través de interacciones adversariales continuas, fortaleciendo así la estabilidad y flexibilidad de sus respuestas. Los resultados empíricos indican que después de 600 rondas, la tasa de victorias de los agentes que emplean este marco vio un aumento sustancial, pasando del 26.17% con el MADDPG original a un perfecto 100%. Una validación adicional a través de experimentos comparativos subraya la eficacia del método, demostrando ventajas considerables en la optimización de estrategias y el rendimiento de los agentes en entornos complejos y dinámicos. Además, en el entorno de combate del escenario Depredador-Presa, cuando el lado enemigo emplea una estrategia multiagente, la tasa de victorias para el lado del agente dron puede alcanzar el 98.5% y el 100%.