logo móvil
Contáctanos

Investigación sobre Estrategias de Toma de Decisiones para UAVs Multi-Agente en Misiones de Isla Basadas en el Algoritmo MADDPG de Fusión Arcoíris

Autores: Yang, Chaofan; Zhang, Bo; Zhang, Meng; Wang, Qi; Zhu, Peican

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Investigación sobre Estrategias de Toma de Decisiones para UAVs Multi-Agente en Misiones de Isla Basadas en el Algoritmo MADDPG de Fusión Arcoíris


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Limitaciones
Algoritmo MADDPG
Eficiencia de convergencia
Estabilidad en el entrenamiento
Adaptabilidad
Tareas de recompensa escasa
Módulo Rainbow

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Para abordar las limitaciones del algoritmo Multi-Agent Deep Deterministic Policy Gradient (MADDPG) en tareas de control autónomo, que incluyen baja eficiencia de convergencia, mala estabilidad de entrenamiento, inadecuada adaptabilidad de estrategias de confrontación y desafíos en el manejo de tareas con recompensas escasas, este artículo propone un algoritmo mejorado mediante la integración del módulo Rainbow. El algoritmo propuesto mejora la optimización de recompensas a largo plazo a través de la repetición de experiencias priorizadas (PER) y mecanismos de actualización TD de múltiples pasos. Además, se introduce una estrategia de asignación de recompensas dinámica para mejorar las capacidades de toma de decisiones colaborativas y adaptativas de los agentes en escenarios adversariales complejos. Además, se emplea el clonaje de comportamiento para acelerar la convergencia durante la fase inicial de entrenamiento. Se realizan extensos experimentos en la plataforma de simulación MaCA para misiones de captura de islas de UAV de 5 vs. 5 a 10 vs. 10. Los resultados demuestran que el Rainbow-MADDPG supera al MADDPG original en varias métricas clave: (1) El valor promedio de recompensa mejora en todas las escalas de confrontación, con mejoras notables en las tareas de 6 vs. 6 y 7 vs. 7, alcanzando valores de recompensa de 14, lo que representa mejoras de 6.05 veces y 2.5 veces sobre la línea base, respectivamente. (2) La velocidad de convergencia aumenta en un 40%. (3) La tasa de preservación de la efectividad de combate duplica la de la línea base. Además, el algoritmo logra el valor promedio de recompensa más alto en escenarios de islas cuasi-rectangulares, demostrando su fuerte adaptabilidad a entornos de juego dinámicos a gran escala. Este estudio proporciona una solución técnica innovadora para abordar los desafíos de estabilidad de estrategia e imbalances de eficiencia en tareas de control autónomo multi-agente, con un potencial de aplicación significativo en defensa de UAV, tareas cooperativas en clúster y campos relacionados.

Otros recursos que podrían interesarte

Temas Virtualpro