Solución para el juego de persecución-evasión de agentes mediante programación dinámica adaptativa
Autores: Gong, Zifeng; He, Bing; Liu, Gang; Zhang, Xiaobo
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Solución para el juego de persecución-evasión de agentes mediante programación dinámica adaptativa
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Nuevo método
Soluciones en tiempo real
Juego de persecución-evasión de dos jugadores
Principio min-max
Sistema de Internet de las Cosas (IoT)
Programación dinámica adaptativa
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 44
Citaciones: Sin citaciones
El documento estudia un método novedoso para soluciones en tiempo real del juego de persecución-evasión de dos jugadores. Se adopta el principio min-max para confirmar el equilibrio de Nash del juego. Dado que los agentes en el juego pueden formar un sistema de Internet de las Cosas (IoT), la ley de control en tiempo real de cada agente se obtiene tomando una función de costo cuadrático lineal en la programación dinámica adaptativa. Al introducir la función de Lyapunov, consideramos el escenario cuando se produce la captura. Dado que la mayoría de los sistemas reales son continuos, se utiliza el algoritmo de iteración de políticas para que la política en tiempo real converja a la solución analítica del equilibrio de Nash. Además, empleamos el método de aproximación de la función de valor para calcular los parámetros de la red neuronal sin resolver directamente la ecuación de Hamilton-Jacobi-Isaacs. Los resultados de la simulación representan la viabilidad del método en diferentes escenarios del juego de persecución-evasión.
Descripción
El documento estudia un método novedoso para soluciones en tiempo real del juego de persecución-evasión de dos jugadores. Se adopta el principio min-max para confirmar el equilibrio de Nash del juego. Dado que los agentes en el juego pueden formar un sistema de Internet de las Cosas (IoT), la ley de control en tiempo real de cada agente se obtiene tomando una función de costo cuadrático lineal en la programación dinámica adaptativa. Al introducir la función de Lyapunov, consideramos el escenario cuando se produce la captura. Dado que la mayoría de los sistemas reales son continuos, se utiliza el algoritmo de iteración de políticas para que la política en tiempo real converja a la solución analítica del equilibrio de Nash. Además, empleamos el método de aproximación de la función de valor para calcular los parámetros de la red neuronal sin resolver directamente la ecuación de Hamilton-Jacobi-Isaacs. Los resultados de la simulación representan la viabilidad del método en diferentes escenarios del juego de persecución-evasión.