Juego de Persecución-Evasión Escalable para UAV de Ala Fija Múltiple Basado en Asignación Dinámica de Objetivos y Aprendizaje por Refuerzo Jerárquico
Autores: Tan, Mulai; Sun, Haocheng; Ding, Dali; Zhou, Huan; Liu, Yongli
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Juego de Persecución-Evasión Escalable para UAV de Ala Fija Múltiple Basado en Asignación Dinámica de Objetivos y Aprendizaje por Refuerzo Jerárquico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículo aéreo no tripulado
Juego de persecución y evasión
Aprendizaje por refuerzo jerárquico
Asignación de objetivos
Toma de decisiones de maniobra
Control de vuelo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El juego de persecución-esquiva de vehículos aéreos no tripulados (VANT) es el marco fundamental para promover la toma de decisiones autónoma y el control colaborativo de sistemas de múltiples VANT. Ante las limitaciones de los métodos actuales de aprendizaje profundo por refuerzo en términos de transferibilidad y generalización para escenarios escalables de juegos de persecución-esquiva de múltiples VANT de ala fija, este documento propone un marco jerárquico de juego de persecución-esquiva colaborativo basado en la asignación de objetivos y el aprendizaje por refuerzo jerárquico. El marco comprende tres capas: capa de asignación de objetivos, capa de toma de decisiones de maniobra y capa de control de vuelo. La capa de asignación de objetivos emplea un método de asignación de objetivos dinámico basado en un mecanismo de ajuste de valor dinámico, descomponiendo el juego de persecución-esquiva de múltiples contra múltiples en varias confrontaciones de uno contra uno. La capa de toma de decisiones de maniobra utiliza un método de toma de decisiones de maniobra basado en la predicción de trayectorias y el aprendizaje por refuerzo jerárquico para generar comandos de maniobra adversarios. La capa de control de vuelo adopta un controlador de vuelo asistido por gradiente estable de aprendizaje por refuerzo para garantizar un vuelo estable del VANT. Las comparaciones con otros algoritmos en escenarios de 3V3, 6V6, 9V9 y 12V12 demuestran que el método propuesto logra altas tasas de victoria en diversas escalas de juego. Los resultados de la comparación también demuestran las ventajas del marco propuesto en este documento en términos de eficiencia de entrenamiento y escalabilidad a gran escala.
Descripción
El juego de persecución-esquiva de vehículos aéreos no tripulados (VANT) es el marco fundamental para promover la toma de decisiones autónoma y el control colaborativo de sistemas de múltiples VANT. Ante las limitaciones de los métodos actuales de aprendizaje profundo por refuerzo en términos de transferibilidad y generalización para escenarios escalables de juegos de persecución-esquiva de múltiples VANT de ala fija, este documento propone un marco jerárquico de juego de persecución-esquiva colaborativo basado en la asignación de objetivos y el aprendizaje por refuerzo jerárquico. El marco comprende tres capas: capa de asignación de objetivos, capa de toma de decisiones de maniobra y capa de control de vuelo. La capa de asignación de objetivos emplea un método de asignación de objetivos dinámico basado en un mecanismo de ajuste de valor dinámico, descomponiendo el juego de persecución-esquiva de múltiples contra múltiples en varias confrontaciones de uno contra uno. La capa de toma de decisiones de maniobra utiliza un método de toma de decisiones de maniobra basado en la predicción de trayectorias y el aprendizaje por refuerzo jerárquico para generar comandos de maniobra adversarios. La capa de control de vuelo adopta un controlador de vuelo asistido por gradiente estable de aprendizaje por refuerzo para garantizar un vuelo estable del VANT. Las comparaciones con otros algoritmos en escenarios de 3V3, 6V6, 9V9 y 12V12 demuestran que el método propuesto logra altas tasas de victoria en diversas escalas de juego. Los resultados de la comparación también demuestran las ventajas del marco propuesto en este documento en términos de eficiencia de entrenamiento y escalabilidad a gran escala.