Algoritmo de Seguimiento de Objetivos Colaborativo para Múltiples Agentes Basado en MAPPO y BCTD

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Algoritmo de Seguimiento de Objetivos Colaborativo para Múltiples Agentes Basado en MAPPO y BCTD

Autores: Zhou, Yuebin; Yue, Yunling; Yan, Bolun; Li, Linkun; Xiao, Jinsheng; Yao, Yuan

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Algoritmo de Seguimiento de Objetivos Colaborativo para Múltiples Agentes Basado en MAPPO y BCTD

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Seguimiento de objetivos

Aprendizaje por refuerzo multiagente

UAVs

Clonación de comportamiento

Diferencia temporal

Optimización de políticas proximal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El seguimiento de objetivos es una tarea representativa en el aprendizaje por refuerzo multi-agente (MARL), donde los agentes deben colaborar de manera efectiva en entornos con obstáculos densos, objetivos evasivos y observaciones de alta dimensión, condiciones que a menudo conducen a óptimos locales e ineficiencias en el entrenamiento. Para abordar estos desafíos, este documento propone un algoritmo de seguimiento colaborativo para UAVs que integra la clonación de comportamiento con la diferencia temporal (BCTD) y la optimización de políticas proximal multi-agente (MAPPO). Las trayectorias de expertos se generan utilizando el campo potencial artificial (APF), seguido de un preentrenamiento de políticas a través de la clonación de comportamiento y la optimización de valores basada en TD. Luego se emplea MAPPO para un ajuste fino dinámico, mejorando la robustez y la coordinación. Los experimentos en un entorno simulado muestran que el marco propuesto MAPPO+BCTD supera a MAPPO, QMIX y MADDPG en tasa de éxito, velocidad de convergencia y eficiencia de seguimiento. El método propuesto alivia efectivamente el problema de optimización local del APF y el problema de ineficiencia en el entrenamiento del RL, ofreciendo una solución escalable y confiable para la coordinación dinámica multi-agente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro