logo móvil
Contáctanos

Evitar Perseguidores Desconocidos a través de la Identificación de Estrategias de Persecución y el Algoritmo de Adaptación de Políticas de Referencia de Modelo (MRPA)

Autores: Su, Zitao; Zheng, Shuang; Xu, Zhiqiang; Cheng, Lili; Tao, Chengyang; Qie, Rongkai; Feng, Weijia; Zhang, Zhaoxiang; Xu, Yuelei

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Evitar Perseguidores Desconocidos a través de la Identificación de Estrategias de Persecución y el Algoritmo de Adaptación de Políticas de Referencia de Modelo (MRPA)


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Juego
Persecución-evitación
UAVs
Aprendizaje por refuerzo
Estrategia de persecución
Política de evasión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El juego de persecución y evasión siempre ha sido un tema de investigación popular en el campo de los Vehículos Aéreos No Tripulados (VANT). La toma de decisiones de evasión actual basada en el aprendizaje por refuerzo generalmente se entrena solo para perseguidores específicos, y tiene un rendimiento limitado para evadir perseguidores desconocidos y exhibe una mala generalización. Para mejorar la capacidad de una política de evasión aprendida por aprendizaje por refuerzo (RL) para evadir perseguidores desconocidos, este documento propone un método de estimación de actitud de VANT en persecución y identificación de estrategia de persecución, así como un algoritmo de Adaptación de Política de Referencia de Modelo (MRPA). En primer lugar, este documento construye un modelo de decisión de Markov para el juego de persecución y evasión de VANT que incluye la actitud del perseguidor y entrena una política de evasión para una estrategia de persecución específica utilizando el algoritmo Soft Actor-Critic (SAC). En segundo lugar, este documento establece un nuevo modelo de movimiento relativo de VANT en juegos de persecución y evasión bajo la suposición de que se utiliza la guía proporcional como estrategia de persecución, basado en el cual se propone el algoritmo de estimación de actitud de VANT en persecución y identificación de estrategia de persecución para proporcionar información adecuada para la toma de decisiones y adaptación de políticas. Además, se presenta un algoritmo de Adaptación de Política de Referencia de Modelo (MRPA) para mejorar la generalización de la política de evasión entrenada por RL en ciertos entornos. Finalmente, varias simulaciones numéricas implican la precisión de la estimación de actitud de VANT en persecución y la exactitud de la identificación de estrategia de persecución. Además, el experimento de ablación verifica que el algoritmo MRPA puede mejorar efectivamente el rendimiento de la política de evasión para enfrentar a perseguidores desconocidos.

Otros recursos que podrían interesarte

Temas Virtualpro