Planificación de Trayectorias en Escenas Dinámicas de UAVs Basada en Aprendizaje por Refuerzo Profundo
Autores: Tang, Jin; Liang, Yangang; Li, Kebo
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Planificación de Trayectorias en Escenas Dinámicas de UAVs Basada en Aprendizaje por Refuerzo Profundo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículo aéreo no tripulado
Planificación de rutas
Aprendizaje profundo por refuerzo
Escenarios dinámicos
Proceso de Decisión de Markov
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los métodos tradicionales de planificación de rutas para vehículos aéreos no tripulados se centran en abordar problemas de planificación en escenas estáticas, luchan por equilibrar la optimalidad y el rendimiento en tiempo real, y son propensos a óptimos locales. En este artículo, proponemos un enfoque mejorado de aprendizaje por refuerzo profundo para la planificación de rutas de UAV en escenarios dinámicos. En primer lugar, establecemos un escenario de tarea que incluye un modelo de evaluación de obstáculos y modelamos el problema de planificación de rutas del UAV utilizando el Proceso de Decisión de Markov. Traducimos el modelo MDP al marco del aprendizaje por refuerzo y diseñamos el espacio de estados, el espacio de acciones y la función de recompensa, incorporando reglas heurísticas en la política de exploración de acciones. En segundo lugar, utilizamos la aproximación de la función Q de un D3QN mejorado con un mecanismo de repetición de experiencias priorizadas y diseñamos la estructura de red del algoritmo basada en el marco de TensorFlow. A través de un extenso entrenamiento, obtenemos políticas de planificación de rutas de aprendizaje por refuerzo tanto para escenas estáticas como dinámicas y empleamos de manera innovadora un campo de acción visualizado para analizar su efectividad en la planificación. Las simulaciones demuestran que el algoritmo propuesto puede llevar a cabo tareas de planificación de rutas en escenas dinámicas de UAV y supera a métodos clásicos como A*, RRT y DQN en términos de efectividad de planificación.
Descripción
Los métodos tradicionales de planificación de rutas para vehículos aéreos no tripulados se centran en abordar problemas de planificación en escenas estáticas, luchan por equilibrar la optimalidad y el rendimiento en tiempo real, y son propensos a óptimos locales. En este artículo, proponemos un enfoque mejorado de aprendizaje por refuerzo profundo para la planificación de rutas de UAV en escenarios dinámicos. En primer lugar, establecemos un escenario de tarea que incluye un modelo de evaluación de obstáculos y modelamos el problema de planificación de rutas del UAV utilizando el Proceso de Decisión de Markov. Traducimos el modelo MDP al marco del aprendizaje por refuerzo y diseñamos el espacio de estados, el espacio de acciones y la función de recompensa, incorporando reglas heurísticas en la política de exploración de acciones. En segundo lugar, utilizamos la aproximación de la función Q de un D3QN mejorado con un mecanismo de repetición de experiencias priorizadas y diseñamos la estructura de red del algoritmo basada en el marco de TensorFlow. A través de un extenso entrenamiento, obtenemos políticas de planificación de rutas de aprendizaje por refuerzo tanto para escenas estáticas como dinámicas y empleamos de manera innovadora un campo de acción visualizado para analizar su efectividad en la planificación. Las simulaciones demuestran que el algoritmo propuesto puede llevar a cabo tareas de planificación de rutas en escenas dinámicas de UAV y supera a métodos clásicos como A*, RRT y DQN en términos de efectividad de planificación.