Investigación sobre Estrategias de Toma de Decisiones para UAVs Multi-Agente en Misiones de Isla Basadas en el Algoritmo MADDPG de Fusión Arcoíris
Autores: Yang, Chaofan; Zhang, Bo; Zhang, Meng; Wang, Qi; Zhu, Peican
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Investigación sobre Estrategias de Toma de Decisiones para UAVs Multi-Agente en Misiones de Isla Basadas en el Algoritmo MADDPG de Fusión Arcoíris
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Limitaciones
Algoritmo MADDPG
Eficiencia de convergencia
Estabilidad en el entrenamiento
Adaptabilidad
Tareas de recompensa escasa
Módulo Rainbow
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Para abordar las limitaciones del algoritmo Multi-Agent Deep Deterministic Policy Gradient (MADDPG) en tareas de control autónomo, que incluyen baja eficiencia de convergencia, mala estabilidad de entrenamiento, inadecuada adaptabilidad de estrategias de confrontación y desafíos en el manejo de tareas con recompensas escasas, este artículo propone un algoritmo mejorado mediante la integración del módulo Rainbow. El algoritmo propuesto mejora la optimización de recompensas a largo plazo a través de la repetición de experiencias priorizadas (PER) y mecanismos de actualización TD de múltiples pasos. Además, se introduce una estrategia de asignación de recompensas dinámica para mejorar las capacidades de toma de decisiones colaborativas y adaptativas de los agentes en escenarios adversariales complejos. Además, se emplea el clonaje de comportamiento para acelerar la convergencia durante la fase inicial de entrenamiento. Se realizan extensos experimentos en la plataforma de simulación MaCA para misiones de captura de islas de UAV de 5 vs. 5 a 10 vs. 10. Los resultados demuestran que el Rainbow-MADDPG supera al MADDPG original en varias métricas clave: (1) El valor promedio de recompensa mejora en todas las escalas de confrontación, con mejoras notables en las tareas de 6 vs. 6 y 7 vs. 7, alcanzando valores de recompensa de 14, lo que representa mejoras de 6.05 veces y 2.5 veces sobre la línea base, respectivamente. (2) La velocidad de convergencia aumenta en un 40%. (3) La tasa de preservación de la efectividad de combate duplica la de la línea base. Además, el algoritmo logra el valor promedio de recompensa más alto en escenarios de islas cuasi-rectangulares, demostrando su fuerte adaptabilidad a entornos de juego dinámicos a gran escala. Este estudio proporciona una solución técnica innovadora para abordar los desafíos de estabilidad de estrategia e imbalances de eficiencia en tareas de control autónomo multi-agente, con un potencial de aplicación significativo en defensa de UAV, tareas cooperativas en clúster y campos relacionados.
Descripción
Para abordar las limitaciones del algoritmo Multi-Agent Deep Deterministic Policy Gradient (MADDPG) en tareas de control autónomo, que incluyen baja eficiencia de convergencia, mala estabilidad de entrenamiento, inadecuada adaptabilidad de estrategias de confrontación y desafíos en el manejo de tareas con recompensas escasas, este artículo propone un algoritmo mejorado mediante la integración del módulo Rainbow. El algoritmo propuesto mejora la optimización de recompensas a largo plazo a través de la repetición de experiencias priorizadas (PER) y mecanismos de actualización TD de múltiples pasos. Además, se introduce una estrategia de asignación de recompensas dinámica para mejorar las capacidades de toma de decisiones colaborativas y adaptativas de los agentes en escenarios adversariales complejos. Además, se emplea el clonaje de comportamiento para acelerar la convergencia durante la fase inicial de entrenamiento. Se realizan extensos experimentos en la plataforma de simulación MaCA para misiones de captura de islas de UAV de 5 vs. 5 a 10 vs. 10. Los resultados demuestran que el Rainbow-MADDPG supera al MADDPG original en varias métricas clave: (1) El valor promedio de recompensa mejora en todas las escalas de confrontación, con mejoras notables en las tareas de 6 vs. 6 y 7 vs. 7, alcanzando valores de recompensa de 14, lo que representa mejoras de 6.05 veces y 2.5 veces sobre la línea base, respectivamente. (2) La velocidad de convergencia aumenta en un 40%. (3) La tasa de preservación de la efectividad de combate duplica la de la línea base. Además, el algoritmo logra el valor promedio de recompensa más alto en escenarios de islas cuasi-rectangulares, demostrando su fuerte adaptabilidad a entornos de juego dinámicos a gran escala. Este estudio proporciona una solución técnica innovadora para abordar los desafíos de estabilidad de estrategia e imbalances de eficiencia en tareas de control autónomo multi-agente, con un potencial de aplicación significativo en defensa de UAV, tareas cooperativas en clúster y campos relacionados.