Ley de guía basada en juegos diferenciales de aprendizaje por refuerzo profundo contra evasores en maniobra
Autores: Xi, Axing; Cai, Yuanli
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Ley de guía basada en juegos diferenciales de aprendizaje por refuerzo profundo contra evasores en maniobra
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Inteligente
Intercepción
Juego diferencial
Ley de guía
Aprendizaje por refuerzo
Red neuronal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Para lograr la intercepción inteligente de diferentes tipos de evasores en maniobra, basado en el aprendizaje por refuerzo profundo, se propone una nueva ley de guía de juego diferencial inteligente en el dominio de acción continua. A diferencia de las leyes de guía tradicionales, la ley de guía propuesta puede evitar configuraciones manuales tediosas y ahorrar esfuerzos de costos. Primero, el problema de intercepción se transforma en el problema de juego de persecución-evasión, que se resuelve mediante la teoría de juegos diferenciales de suma cero. A continuación, se obtiene la estrategia de equilibrio de Nash a través del proceso de juego de Markov. Para implementar la ley de guía de juego diferencial inteligente propuesta, se construye una red neuronal actor-crítico basada en el gradiente de política determinista profundo para calcular el punto de silla del problema de guía de juego diferencial. Luego, se diseña una función de recompensa, que incluye los compromisos entre la precisión de la guía, el consumo de energía y el tiempo de intercepción. Finalmente, en comparación con los métodos tradicionales, la precisión de intercepción de la ley de guía de juego diferencial inteligente propuesta es del 99.2%, el consumo de energía se reduce en un 47% y el tiempo de simulación se acorta en 1.58 s. Todos los resultados revelan que la ley de guía de juego diferencial inteligente propuesta tiene una mejor capacidad de toma de decisiones inteligentes.
Descripción
Para lograr la intercepción inteligente de diferentes tipos de evasores en maniobra, basado en el aprendizaje por refuerzo profundo, se propone una nueva ley de guía de juego diferencial inteligente en el dominio de acción continua. A diferencia de las leyes de guía tradicionales, la ley de guía propuesta puede evitar configuraciones manuales tediosas y ahorrar esfuerzos de costos. Primero, el problema de intercepción se transforma en el problema de juego de persecución-evasión, que se resuelve mediante la teoría de juegos diferenciales de suma cero. A continuación, se obtiene la estrategia de equilibrio de Nash a través del proceso de juego de Markov. Para implementar la ley de guía de juego diferencial inteligente propuesta, se construye una red neuronal actor-crítico basada en el gradiente de política determinista profundo para calcular el punto de silla del problema de guía de juego diferencial. Luego, se diseña una función de recompensa, que incluye los compromisos entre la precisión de la guía, el consumo de energía y el tiempo de intercepción. Finalmente, en comparación con los métodos tradicionales, la precisión de intercepción de la ley de guía de juego diferencial inteligente propuesta es del 99.2%, el consumo de energía se reduce en un 47% y el tiempo de simulación se acorta en 1.58 s. Todos los resultados revelan que la ley de guía de juego diferencial inteligente propuesta tiene una mejor capacidad de toma de decisiones inteligentes.