Planificación de Ruta Autónoma Multi-UAV en Misiones de Reconocimiento Considerando Información Incompleta: Un Método de Aprendizaje por Refuerzo
Autores: Chen, Yu; Dong, Qi; Shang, Xiaozhou; Wu, Zhenyu; Wang, Jinyu
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Planificación de Ruta Autónoma Multi-UAV en Misiones de Reconocimiento Considerando Información Incompleta: Un Método de Aprendizaje por Refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Uav
Algoritmo de planificación de rutas
Aprendizaje por refuerzo
Navegación autónoma
Multiagente
Optimización
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los vehículos aéreos no tripulados (VANT) son importantes en misiones de reconocimiento debido a su flexibilidad y conveniencia. Vitalmente, los VANT son capaces de navegación autónoma, lo que significa que pueden ser utilizados para planificar rutas seguras hacia posiciones objetivo en entornos peligrosos. Los algoritmos tradicionales de planificación de rutas no funcionan bien cuando el estado ambiental es dinámico y parcialmente observable. Es difícil para un VANT tomar la decisión correcta con información incompleta. En este estudio, propusimos un algoritmo de planificación de rutas para múltiples VANT basado en el aprendizaje por refuerzo multiagente, que implica la adopción de una arquitectura de entrenamiento centralizado y ejecución descentralizada para coordinar todos los VANT. Además, introdujimos un estado oculto de la red neuronal recurrente para utilizar la información de observación histórica. Para resolver el problema de optimización multiobjetivo, diseñamos una función de recompensa conjunta para guiar a los VANT a aprender políticas óptimas bajo múltiples restricciones. Los resultados demuestran que, al utilizar nuestro método, pudimos resolver el problema de información incompleta y baja eficiencia causado por observaciones parciales y recompensas escasas en el aprendizaje por refuerzo, y logramos la planificación de rutas autónomas cooperativas de múltiples VANT en un entorno desconocido.
Descripción
Los vehículos aéreos no tripulados (VANT) son importantes en misiones de reconocimiento debido a su flexibilidad y conveniencia. Vitalmente, los VANT son capaces de navegación autónoma, lo que significa que pueden ser utilizados para planificar rutas seguras hacia posiciones objetivo en entornos peligrosos. Los algoritmos tradicionales de planificación de rutas no funcionan bien cuando el estado ambiental es dinámico y parcialmente observable. Es difícil para un VANT tomar la decisión correcta con información incompleta. En este estudio, propusimos un algoritmo de planificación de rutas para múltiples VANT basado en el aprendizaje por refuerzo multiagente, que implica la adopción de una arquitectura de entrenamiento centralizado y ejecución descentralizada para coordinar todos los VANT. Además, introdujimos un estado oculto de la red neuronal recurrente para utilizar la información de observación histórica. Para resolver el problema de optimización multiobjetivo, diseñamos una función de recompensa conjunta para guiar a los VANT a aprender políticas óptimas bajo múltiples restricciones. Los resultados demuestran que, al utilizar nuestro método, pudimos resolver el problema de información incompleta y baja eficiencia causado por observaciones parciales y recompensas escasas en el aprendizaje por refuerzo, y logramos la planificación de rutas autónomas cooperativas de múltiples VANT en un entorno desconocido.