Investigación sobre la Planificación de Rutas de Agentes Móviles Basada en Aprendizaje por Refuerzo Profundo
Autores: Jin, Shengwei; Zhang, Xizheng; Hu, Ying; Liu, Ruoyuan; Wang, Qing; He, Haihua; Liao, Junyu; Zeng, Lijing
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Investigación sobre la Planificación de Rutas de Agentes Móviles Basada en Aprendizaje por Refuerzo Profundo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Planificación de rutas para agentes móviles
Aprendizaje por refuerzo profundo
LSTM
Curva de Bézier
Evitación de colisiones
Eficiencia energética
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Para la planificación de rutas de agentes móviles, los algoritmos de planificación de rutas tradicionales frecuentemente inducen variaciones abruptas en la curvatura de la ruta y los ángulos de dirección, aumentando el riesgo de deslizamiento lateral de los neumáticos y socavando la seguridad operativa. Al mismo tiempo, los métodos convencionales de aprendizaje por refuerzo luchan por converger rápidamente, lo que lleva a una eficiencia insuficiente en la planificación para satisfacer la demanda de economía de energía. Este estudio propone LSTM Bézier-Double Deep Q-Network (LB-DDQN), un marco avanzado de planificación de rutas para agentes móviles basado en el aprendizaje profundo por refuerzo. La arquitectura primero permite la navegación sin mapa a través de una base DDQN, posteriormente integra redes de memoria a corto y largo plazo (LSTM) para la fusión de características ambientales y la preservación de información de entrenamiento, y finalmente mejora la calidad de la ruta mediante la eliminación de nodos redundantes a través de un análisis de la relación entre obstáculos y rutas, combinado con un suavizado de trayectorias basado en curvas de Bézier. Se construyó un entorno de simulación tridimensional impulsado por sensores con obstáculos estáticos utilizando las plataformas ROS y Gazebo, donde se entrenaron modelos de agentes móviles equipados con LiDAR para la percepción ambiental en tiempo real y la optimización de estrategias antes de su implementación en vehículos experimentales. Los resultados de la simulación y la implementación física revelan que LB-DDQN logra una evitación efectiva de colisiones, mientras demuestra mejoras notables en métricas críticas: la suavidad de la ruta, la eficiencia energética y la estabilidad del movimiento exhiben mejoras promedio que superan el 50%. El marco además mantiene estándares de seguridad superiores y eficiencia operativa en diversos escenarios.
Descripción
Para la planificación de rutas de agentes móviles, los algoritmos de planificación de rutas tradicionales frecuentemente inducen variaciones abruptas en la curvatura de la ruta y los ángulos de dirección, aumentando el riesgo de deslizamiento lateral de los neumáticos y socavando la seguridad operativa. Al mismo tiempo, los métodos convencionales de aprendizaje por refuerzo luchan por converger rápidamente, lo que lleva a una eficiencia insuficiente en la planificación para satisfacer la demanda de economía de energía. Este estudio propone LSTM Bézier-Double Deep Q-Network (LB-DDQN), un marco avanzado de planificación de rutas para agentes móviles basado en el aprendizaje profundo por refuerzo. La arquitectura primero permite la navegación sin mapa a través de una base DDQN, posteriormente integra redes de memoria a corto y largo plazo (LSTM) para la fusión de características ambientales y la preservación de información de entrenamiento, y finalmente mejora la calidad de la ruta mediante la eliminación de nodos redundantes a través de un análisis de la relación entre obstáculos y rutas, combinado con un suavizado de trayectorias basado en curvas de Bézier. Se construyó un entorno de simulación tridimensional impulsado por sensores con obstáculos estáticos utilizando las plataformas ROS y Gazebo, donde se entrenaron modelos de agentes móviles equipados con LiDAR para la percepción ambiental en tiempo real y la optimización de estrategias antes de su implementación en vehículos experimentales. Los resultados de la simulación y la implementación física revelan que LB-DDQN logra una evitación efectiva de colisiones, mientras demuestra mejoras notables en métricas críticas: la suavidad de la ruta, la eficiencia energética y la estabilidad del movimiento exhiben mejoras promedio que superan el 50%. El marco además mantiene estándares de seguridad superiores y eficiencia operativa en diversos escenarios.