logo móvil
Contáctanos

Pursuit-Evasion Multi-Agente Estructurado por Roles con Restricciones de Juego Potencial para Sistemas Heterogéneos de Aerostatos-UAV

Autores: Yang, Kejie; Zhu, Ming; Zhang, Yifei

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Pursuit-Evasion Multi-Agente Estructurado por Roles con Restricciones de Juego Potencial para Sistemas Heterogéneos de Aerostatos-UAV


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Cooperativo
Persecución-evitación
Agentes heterogéneos
Aprendizaje por refuerzo multiagente
Restringido por juegos de potencial
Seguimiento estructurado por roles

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La persecución y evasión cooperativa con agentes heterogéneos plantea un desafío de entrenamiento que los métodos de aprendizaje por refuerzo multiagente planos manejan mal: el equipo de perseguidores debe coordinarse internamente mientras compite contra objetivos adversarios, y las dos formas de acoplamiento requieren diferentes señales de aprendizaje. Presentamos un marco de seguimiento estructurado por roles restringido por juegos potenciales: un algoritmo de entrenamiento centralizado y ejecución descentralizada para equipos de vehículos aéreos no tripulados guiados por dirigibles. Descompone la interacción multiagente en un juego potencial interno entre los perseguidores y un juego de suma general externa contra objetivos controlados de forma independiente, y empareja críticos estructurados por roles con atención multi-cabeza sobre tokens de agentes heterogéneos y un solucionador de asignación de tareas en dos etapas integrado como condicionamiento del crítico. Los resultados de la simulación en un entorno tridimensional muestran que el marco propuesto mantiene un alto éxito de captura en escenarios de múltiples objetivos donde las líneas base estándar se degradan sustancialmente. Una simulación visual basada en Gazebo con dinámica de cuerpo rígido completa confirma que la política aprendida se transfiere a un simulador de mayor fidelidad después de un entrenamiento de continuación con un controlador de lazo interno PID en cascada.

Otros recursos que podrían interesarte

Temas Virtualpro