Pursuit-Evasion Multi-Agente Estructurado por Roles con Restricciones de Juego Potencial para Sistemas Heterogéneos de Aerostatos-UAV
Autores: Yang, Kejie; Zhu, Ming; Zhang, Yifei
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Pursuit-Evasion Multi-Agente Estructurado por Roles con Restricciones de Juego Potencial para Sistemas Heterogéneos de Aerostatos-UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Cooperativo
Persecución-evitación
Agentes heterogéneos
Aprendizaje por refuerzo multiagente
Restringido por juegos de potencial
Seguimiento estructurado por roles
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La persecución y evasión cooperativa con agentes heterogéneos plantea un desafío de entrenamiento que los métodos de aprendizaje por refuerzo multiagente planos manejan mal: el equipo de perseguidores debe coordinarse internamente mientras compite contra objetivos adversarios, y las dos formas de acoplamiento requieren diferentes señales de aprendizaje. Presentamos un marco de seguimiento estructurado por roles restringido por juegos potenciales: un algoritmo de entrenamiento centralizado y ejecución descentralizada para equipos de vehículos aéreos no tripulados guiados por dirigibles. Descompone la interacción multiagente en un juego potencial interno entre los perseguidores y un juego de suma general externa contra objetivos controlados de forma independiente, y empareja críticos estructurados por roles con atención multi-cabeza sobre tokens de agentes heterogéneos y un solucionador de asignación de tareas en dos etapas integrado como condicionamiento del crítico. Los resultados de la simulación en un entorno tridimensional muestran que el marco propuesto mantiene un alto éxito de captura en escenarios de múltiples objetivos donde las líneas base estándar se degradan sustancialmente. Una simulación visual basada en Gazebo con dinámica de cuerpo rígido completa confirma que la política aprendida se transfiere a un simulador de mayor fidelidad después de un entrenamiento de continuación con un controlador de lazo interno PID en cascada.
Descripción
La persecución y evasión cooperativa con agentes heterogéneos plantea un desafío de entrenamiento que los métodos de aprendizaje por refuerzo multiagente planos manejan mal: el equipo de perseguidores debe coordinarse internamente mientras compite contra objetivos adversarios, y las dos formas de acoplamiento requieren diferentes señales de aprendizaje. Presentamos un marco de seguimiento estructurado por roles restringido por juegos potenciales: un algoritmo de entrenamiento centralizado y ejecución descentralizada para equipos de vehículos aéreos no tripulados guiados por dirigibles. Descompone la interacción multiagente en un juego potencial interno entre los perseguidores y un juego de suma general externa contra objetivos controlados de forma independiente, y empareja críticos estructurados por roles con atención multi-cabeza sobre tokens de agentes heterogéneos y un solucionador de asignación de tareas en dos etapas integrado como condicionamiento del crítico. Los resultados de la simulación en un entorno tridimensional muestran que el marco propuesto mantiene un alto éxito de captura en escenarios de múltiples objetivos donde las líneas base estándar se degradan sustancialmente. Una simulación visual basada en Gazebo con dinámica de cuerpo rígido completa confirma que la política aprendida se transfiere a un simulador de mayor fidelidad después de un entrenamiento de continuación con un controlador de lazo interno PID en cascada.