Estrategia de Persecución-Intercepción en Juegos Diferenciales Basada en el Algoritmo Q-Learning-Cover
Autores: Bai, Yu; Zhou, Di; He, Zhen
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Estrategia de Persecución-Intercepción en Juegos Diferenciales Basada en el Algoritmo Q-Learning-Cover
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Diferencia limitada
Maniobrabilidad
Perseguidor
Evasor
Algoritmo de cobertura de Q-learning
Intercepción
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
Debido a la limitada diferencia en maniobrabilidad entre el perseguidor y el evadido en el espacio tridimensional, es difícil para un solo perseguidor capturar al evadido. Para abordar esto, este artículo propone una estrategia donde tres perseguidores interceptan a un evadido e introduce un algoritmo de Q-learning-cover. Basado en los modelos de movimiento de los perseguidores y el evadido en el espacio tridimensional, este artículo presenta un esquema de cobertura de región basado en la bola de Ahlswede y analiza el límite superior de convergencia del algoritmo de Q-learning-cover al diseñar una función de Lyapunov apropiada. A través de un extenso entrenamiento del modelo, se logró la captura exitosa del evadido por parte de los perseguidores en un escenario de tres contra uno. Finalmente, se presentan experimentos de simulación numérica y experimentos de simulación de hardware en el bucle, ambos demuestran que el algoritmo de Q-learning-cover propuesto puede realizar de manera efectiva el cerco e interceptación tres contra uno del objetivo evadido.
Descripción
Debido a la limitada diferencia en maniobrabilidad entre el perseguidor y el evadido en el espacio tridimensional, es difícil para un solo perseguidor capturar al evadido. Para abordar esto, este artículo propone una estrategia donde tres perseguidores interceptan a un evadido e introduce un algoritmo de Q-learning-cover. Basado en los modelos de movimiento de los perseguidores y el evadido en el espacio tridimensional, este artículo presenta un esquema de cobertura de región basado en la bola de Ahlswede y analiza el límite superior de convergencia del algoritmo de Q-learning-cover al diseñar una función de Lyapunov apropiada. A través de un extenso entrenamiento del modelo, se logró la captura exitosa del evadido por parte de los perseguidores en un escenario de tres contra uno. Finalmente, se presentan experimentos de simulación numérica y experimentos de simulación de hardware en el bucle, ambos demuestran que el algoritmo de Q-learning-cover propuesto puede realizar de manera efectiva el cerco e interceptación tres contra uno del objetivo evadido.