Investigación sobre Estrategias de Toma de Decisiones para UAVs Multi-Agente en Misiones de Isla Basadas en el Algoritmo MADDPG de Fusión Arcoíris

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Investigación sobre Estrategias de Toma de Decisiones para UAVs Multi-Agente en Misiones de Isla Basadas en el Algoritmo MADDPG de Fusión Arcoíris

Autores: Yang, Chaofan; Zhang, Bo; Zhang, Meng; Wang, Qi; Zhu, Peican

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Investigación sobre Estrategias de Toma de Decisiones para UAVs Multi-Agente en Misiones de Isla Basadas en el Algoritmo MADDPG de Fusión Arcoíris

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Limitaciones

Algoritmo MADDPG

Eficiencia de convergencia

Estabilidad en el entrenamiento

Adaptabilidad

Tareas de recompensa escasa

Módulo Rainbow

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Para abordar las limitaciones del algoritmo Multi-Agent Deep Deterministic Policy Gradient (MADDPG) en tareas de control autónomo, que incluyen baja eficiencia de convergencia, mala estabilidad de entrenamiento, inadecuada adaptabilidad de estrategias de confrontación y desafíos en el manejo de tareas con recompensas escasas, este artículo propone un algoritmo mejorado mediante la integración del módulo Rainbow. El algoritmo propuesto mejora la optimización de recompensas a largo plazo a través de la repetición de experiencias priorizadas (PER) y mecanismos de actualización TD de múltiples pasos. Además, se introduce una estrategia de asignación de recompensas dinámica para mejorar las capacidades de toma de decisiones colaborativas y adaptativas de los agentes en escenarios adversariales complejos. Además, se emplea el clonaje de comportamiento para acelerar la convergencia durante la fase inicial de entrenamiento. Se realizan extensos experimentos en la plataforma de simulación MaCA para misiones de captura de islas de UAV de 5 vs. 5 a 10 vs. 10. Los resultados demuestran que el Rainbow-MADDPG supera al MADDPG original en varias métricas clave: (1) El valor promedio de recompensa mejora en todas las escalas de confrontación, con mejoras notables en las tareas de 6 vs. 6 y 7 vs. 7, alcanzando valores de recompensa de 14, lo que representa mejoras de 6.05 veces y 2.5 veces sobre la línea base, respectivamente. (2) La velocidad de convergencia aumenta en un 40%. (3) La tasa de preservación de la efectividad de combate duplica la de la línea base. Además, el algoritmo logra el valor promedio de recompensa más alto en escenarios de islas cuasi-rectangulares, demostrando su fuerte adaptabilidad a entornos de juego dinámicos a gran escala. Este estudio proporciona una solución técnica innovadora para abordar los desafíos de estabilidad de estrategia e imbalances de eficiencia en tareas de control autónomo multi-agente, con un potencial de aplicación significativo en defensa de UAV, tareas cooperativas en clúster y campos relacionados.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro