Método de Decisión de Maniobra Jerárquica Basado en PG-Opción para el Juego de Persecución-Evasión de UAV

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Método de Decisión de Maniobra Jerárquica Basado en PG-Opción para el Juego de Persecución-Evasión de UAV

Autores: Li, Bo; Zhang, Haohui; He, Pingkuan; Wang, Geng; Yue, Kaiqiang; Neretin, Evgeny

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Método de Decisión de Maniobra Jerárquica Basado en PG-Opción para el Juego de Persecución-Evasión de UAV

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Toma de decisiones autónoma

Vehículo aéreo no tripulado

Juego de persecución y evasión

Método de decisión de maniobra jerárquica

Opción PG

Actor-Crítico Suave

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Apuntando al problema de la toma de decisiones autónoma en un juego de persecución y evasión de vehículos aéreos no tripulados (UAV), este documento propone un método jerárquico de decisión de maniobras basado en la opción PG. En primer lugar, considerando de manera integral diversas situaciones de la relación entre ambas partes, este documento diseña cuatro opciones de decisión de maniobras: juego de ventaja, escape rápido, cambio de situación y persecución rápida, y las cuatro opciones se entrenan mediante Soft Actor-Critic (SAC) para obtener la meta-política correspondiente. Además, para evitar altas dimensiones en el espacio de estado en el modelo jerárquico, este documento combina el algoritmo de gradiente de política (PG) con el algoritmo tradicional de aprendizaje por refuerzo jerárquico basado en la opción. El algoritmo PG se utiliza para entrenar el selector de políticas como la estrategia de nivel superior. Finalmente, para resolver el problema del cambio frecuente de meta-políticas, este documento establece la selección con retraso del selector de políticas e introduce la experiencia de expertos para diseñar la función de terminación de las meta-políticas, lo que mejora la flexibilidad del cambio de políticas. Los experimentos de simulación muestran que el algoritmo PG-opción tiene un buen efecto en el juego de persecución y evasión de UAV y se adapta a diversos entornos al cambiar las meta-políticas correspondientes según la situación actual.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro