Método de Decisión de Maniobra Jerárquica Basado en PG-Opción para el Juego de Persecución-Evasión de UAV
Autores: Li, Bo; Zhang, Haohui; He, Pingkuan; Wang, Geng; Yue, Kaiqiang; Neretin, Evgeny
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Método de Decisión de Maniobra Jerárquica Basado en PG-Opción para el Juego de Persecución-Evasión de UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Toma de decisiones autónoma
Vehículo aéreo no tripulado
Juego de persecución y evasión
Método de decisión de maniobra jerárquica
Opción PG
Actor-Crítico Suave
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Apuntando al problema de la toma de decisiones autónoma en un juego de persecución y evasión de vehículos aéreos no tripulados (UAV), este documento propone un método jerárquico de decisión de maniobras basado en la opción PG. En primer lugar, considerando de manera integral diversas situaciones de la relación entre ambas partes, este documento diseña cuatro opciones de decisión de maniobras: juego de ventaja, escape rápido, cambio de situación y persecución rápida, y las cuatro opciones se entrenan mediante Soft Actor-Critic (SAC) para obtener la meta-política correspondiente. Además, para evitar altas dimensiones en el espacio de estado en el modelo jerárquico, este documento combina el algoritmo de gradiente de política (PG) con el algoritmo tradicional de aprendizaje por refuerzo jerárquico basado en la opción. El algoritmo PG se utiliza para entrenar el selector de políticas como la estrategia de nivel superior. Finalmente, para resolver el problema del cambio frecuente de meta-políticas, este documento establece la selección con retraso del selector de políticas e introduce la experiencia de expertos para diseñar la función de terminación de las meta-políticas, lo que mejora la flexibilidad del cambio de políticas. Los experimentos de simulación muestran que el algoritmo PG-opción tiene un buen efecto en el juego de persecución y evasión de UAV y se adapta a diversos entornos al cambiar las meta-políticas correspondientes según la situación actual.
Descripción
Apuntando al problema de la toma de decisiones autónoma en un juego de persecución y evasión de vehículos aéreos no tripulados (UAV), este documento propone un método jerárquico de decisión de maniobras basado en la opción PG. En primer lugar, considerando de manera integral diversas situaciones de la relación entre ambas partes, este documento diseña cuatro opciones de decisión de maniobras: juego de ventaja, escape rápido, cambio de situación y persecución rápida, y las cuatro opciones se entrenan mediante Soft Actor-Critic (SAC) para obtener la meta-política correspondiente. Además, para evitar altas dimensiones en el espacio de estado en el modelo jerárquico, este documento combina el algoritmo de gradiente de política (PG) con el algoritmo tradicional de aprendizaje por refuerzo jerárquico basado en la opción. El algoritmo PG se utiliza para entrenar el selector de políticas como la estrategia de nivel superior. Finalmente, para resolver el problema del cambio frecuente de meta-políticas, este documento establece la selección con retraso del selector de políticas e introduce la experiencia de expertos para diseñar la función de terminación de las meta-políticas, lo que mejora la flexibilidad del cambio de políticas. Los experimentos de simulación muestran que el algoritmo PG-opción tiene un buen efecto en el juego de persecución y evasión de UAV y se adapta a diversos entornos al cambiar las meta-políticas correspondientes según la situación actual.