logo móvil
Contáctanos

Planificación de Ruta Autónoma Multi-UAV en Misiones de Reconocimiento Considerando Información Incompleta: Un Método de Aprendizaje por Refuerzo

Autores: Chen, Yu; Dong, Qi; Shang, Xiaozhou; Wu, Zhenyu; Wang, Jinyu

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Planificación de Ruta Autónoma Multi-UAV en Misiones de Reconocimiento Considerando Información Incompleta: Un Método de Aprendizaje por Refuerzo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Uav
Algoritmo de planificación de rutas
Aprendizaje por refuerzo
Navegación autónoma
Multiagente
Optimización

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los vehículos aéreos no tripulados (VANT) son importantes en misiones de reconocimiento debido a su flexibilidad y conveniencia. Vitalmente, los VANT son capaces de navegación autónoma, lo que significa que pueden ser utilizados para planificar rutas seguras hacia posiciones objetivo en entornos peligrosos. Los algoritmos tradicionales de planificación de rutas no funcionan bien cuando el estado ambiental es dinámico y parcialmente observable. Es difícil para un VANT tomar la decisión correcta con información incompleta. En este estudio, propusimos un algoritmo de planificación de rutas para múltiples VANT basado en el aprendizaje por refuerzo multiagente, que implica la adopción de una arquitectura de entrenamiento centralizado y ejecución descentralizada para coordinar todos los VANT. Además, introdujimos un estado oculto de la red neuronal recurrente para utilizar la información de observación histórica. Para resolver el problema de optimización multiobjetivo, diseñamos una función de recompensa conjunta para guiar a los VANT a aprender políticas óptimas bajo múltiples restricciones. Los resultados demuestran que, al utilizar nuestro método, pudimos resolver el problema de información incompleta y baja eficiencia causado por observaciones parciales y recompensas escasas en el aprendizaje por refuerzo, y logramos la planificación de rutas autónomas cooperativas de múltiples VANT en un entorno desconocido.

Otros recursos que podrían interesarte

Temas Virtualpro