Aprendizaje Profundo Basado en Refuerzo 2.5D para la Planificación de Rutas Multi-Objetivo de Vehículos Terrestres: Considerando Distancia y Consumo de Energía
Autores: Wu, Xiru; Huang, Shuqiao; Huang, Guoming
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Aprendizaje Profundo Basado en Refuerzo 2.5D para la Planificación de Rutas Multi-Objetivo de Vehículos Terrestres: Considerando Distancia y Consumo de Energía
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Consumo de energía
Planificación de trayectorias
Mapa 2.5D
Aprendizaje profundo por refuerzo
DQN
Multiobjetivo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
Debido a la gran diferencia en el consumo de energía entre la subida y la bajada, un camino con la longitud más corta en un entorno de terreno todoterreno complejo (mapa 2.5D) no siempre es el camino con el menor consumo de energía. Para cualquier vehículo sensible a la energía, lograr un buen equilibrio entre la distancia y el consumo de energía en la planificación de caminos 2.5D es significativamente importante. En este documento, proponemos un método de planificación de caminos multiobjetivo 2.5D basado en el aprendizaje profundo por refuerzo (DMOP). El DMOP puede encontrar eficientemente el camino deseado en tres pasos: (1) transformar el mapa 2.5D de alta resolución en un mapa de tamaño pequeño, (2) utilizar una red Q profunda entrenada (DQN) para encontrar el camino deseado en el mapa de tamaño pequeño, y (3) construir el camino planificado en el mapa de alta resolución original utilizando un método mejorado de camino. Además, se aplican una estrategia de exploración híbrida y la teoría de formación de recompensas para entrenar la DQN. La función de recompensa se construye con la información del terreno, la distancia y el borde. Los resultados de la simulación muestran que el método propuesto puede completar la tarea de planificación de caminos 2.5D multiobjetivo con una eficiencia y calidad significativamente altas. Además, las simulaciones demuestran que el método tiene una poderosa capacidad de razonamiento que le permite realizar tareas de planificación no entrenadas arbitrarias.
Descripción
Debido a la gran diferencia en el consumo de energía entre la subida y la bajada, un camino con la longitud más corta en un entorno de terreno todoterreno complejo (mapa 2.5D) no siempre es el camino con el menor consumo de energía. Para cualquier vehículo sensible a la energía, lograr un buen equilibrio entre la distancia y el consumo de energía en la planificación de caminos 2.5D es significativamente importante. En este documento, proponemos un método de planificación de caminos multiobjetivo 2.5D basado en el aprendizaje profundo por refuerzo (DMOP). El DMOP puede encontrar eficientemente el camino deseado en tres pasos: (1) transformar el mapa 2.5D de alta resolución en un mapa de tamaño pequeño, (2) utilizar una red Q profunda entrenada (DQN) para encontrar el camino deseado en el mapa de tamaño pequeño, y (3) construir el camino planificado en el mapa de alta resolución original utilizando un método mejorado de camino. Además, se aplican una estrategia de exploración híbrida y la teoría de formación de recompensas para entrenar la DQN. La función de recompensa se construye con la información del terreno, la distancia y el borde. Los resultados de la simulación muestran que el método propuesto puede completar la tarea de planificación de caminos 2.5D multiobjetivo con una eficiencia y calidad significativamente altas. Además, las simulaciones demuestran que el método tiene una poderosa capacidad de razonamiento que le permite realizar tareas de planificación no entrenadas arbitrarias.