logo móvil
Contáctanos

Juego de Persecución-Evasión Escalable para UAV de Ala Fija Múltiple Basado en Asignación Dinámica de Objetivos y Aprendizaje por Refuerzo Jerárquico

Autores: Tan, Mulai; Sun, Haocheng; Ding, Dali; Zhou, Huan; Liu, Yongli

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Juego de Persecución-Evasión Escalable para UAV de Ala Fija Múltiple Basado en Asignación Dinámica de Objetivos y Aprendizaje por Refuerzo Jerárquico


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículo aéreo no tripulado
Juego de persecución y evasión
Aprendizaje por refuerzo jerárquico
Asignación de objetivos
Toma de decisiones de maniobra
Control de vuelo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El juego de persecución-esquiva de vehículos aéreos no tripulados (VANT) es el marco fundamental para promover la toma de decisiones autónoma y el control colaborativo de sistemas de múltiples VANT. Ante las limitaciones de los métodos actuales de aprendizaje profundo por refuerzo en términos de transferibilidad y generalización para escenarios escalables de juegos de persecución-esquiva de múltiples VANT de ala fija, este documento propone un marco jerárquico de juego de persecución-esquiva colaborativo basado en la asignación de objetivos y el aprendizaje por refuerzo jerárquico. El marco comprende tres capas: capa de asignación de objetivos, capa de toma de decisiones de maniobra y capa de control de vuelo. La capa de asignación de objetivos emplea un método de asignación de objetivos dinámico basado en un mecanismo de ajuste de valor dinámico, descomponiendo el juego de persecución-esquiva de múltiples contra múltiples en varias confrontaciones de uno contra uno. La capa de toma de decisiones de maniobra utiliza un método de toma de decisiones de maniobra basado en la predicción de trayectorias y el aprendizaje por refuerzo jerárquico para generar comandos de maniobra adversarios. La capa de control de vuelo adopta un controlador de vuelo asistido por gradiente estable de aprendizaje por refuerzo para garantizar un vuelo estable del VANT. Las comparaciones con otros algoritmos en escenarios de 3V3, 6V6, 9V9 y 12V12 demuestran que el método propuesto logra altas tasas de victoria en diversas escalas de juego. Los resultados de la comparación también demuestran las ventajas del marco propuesto en este documento en términos de eficiencia de entrenamiento y escalabilidad a gran escala.

Otros recursos que podrían interesarte

Temas Virtualpro