Algoritmo de Seguimiento de Objetivos Colaborativo para Múltiples Agentes Basado en MAPPO y BCTD
Autores: Zhou, Yuebin; Yue, Yunling; Yan, Bolun; Li, Linkun; Xiao, Jinsheng; Yao, Yuan
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Algoritmo de Seguimiento de Objetivos Colaborativo para Múltiples Agentes Basado en MAPPO y BCTD
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Seguimiento de objetivos
Aprendizaje por refuerzo multiagente
UAVs
Clonación de comportamiento
Diferencia temporal
Optimización de políticas proximal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El seguimiento de objetivos es una tarea representativa en el aprendizaje por refuerzo multi-agente (MARL), donde los agentes deben colaborar de manera efectiva en entornos con obstáculos densos, objetivos evasivos y observaciones de alta dimensión, condiciones que a menudo conducen a óptimos locales e ineficiencias en el entrenamiento. Para abordar estos desafíos, este documento propone un algoritmo de seguimiento colaborativo para UAVs que integra la clonación de comportamiento con la diferencia temporal (BCTD) y la optimización de políticas proximal multi-agente (MAPPO). Las trayectorias de expertos se generan utilizando el campo potencial artificial (APF), seguido de un preentrenamiento de políticas a través de la clonación de comportamiento y la optimización de valores basada en TD. Luego se emplea MAPPO para un ajuste fino dinámico, mejorando la robustez y la coordinación. Los experimentos en un entorno simulado muestran que el marco propuesto MAPPO+BCTD supera a MAPPO, QMIX y MADDPG en tasa de éxito, velocidad de convergencia y eficiencia de seguimiento. El método propuesto alivia efectivamente el problema de optimización local del APF y el problema de ineficiencia en el entrenamiento del RL, ofreciendo una solución escalable y confiable para la coordinación dinámica multi-agente.
Descripción
El seguimiento de objetivos es una tarea representativa en el aprendizaje por refuerzo multi-agente (MARL), donde los agentes deben colaborar de manera efectiva en entornos con obstáculos densos, objetivos evasivos y observaciones de alta dimensión, condiciones que a menudo conducen a óptimos locales e ineficiencias en el entrenamiento. Para abordar estos desafíos, este documento propone un algoritmo de seguimiento colaborativo para UAVs que integra la clonación de comportamiento con la diferencia temporal (BCTD) y la optimización de políticas proximal multi-agente (MAPPO). Las trayectorias de expertos se generan utilizando el campo potencial artificial (APF), seguido de un preentrenamiento de políticas a través de la clonación de comportamiento y la optimización de valores basada en TD. Luego se emplea MAPPO para un ajuste fino dinámico, mejorando la robustez y la coordinación. Los experimentos en un entorno simulado muestran que el marco propuesto MAPPO+BCTD supera a MAPPO, QMIX y MADDPG en tasa de éxito, velocidad de convergencia y eficiencia de seguimiento. El método propuesto alivia efectivamente el problema de optimización local del APF y el problema de ineficiencia en el entrenamiento del RL, ofreciendo una solución escalable y confiable para la coordinación dinámica multi-agente.