Planificación dinámica de rutas para vehículos basada en aprendizaje profundo de refuerzo de enmascaramiento de estado causal
Autores: Hua, Xia; Zhang, Tengteng; Cao, Jun
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Planificación dinámica de rutas para vehículos basada en aprendizaje profundo de refuerzo de enmascaramiento de estado causal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Planificación de ruta dinámica
Aprendizaje profundo por refuerzo
Enmascaramiento de estado causal
Algoritmo CSM-TD3
Entornos dinámicos
Velocidad de convergencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
La planificación de rutas dinámicas permite a los vehículos navegar de forma autónoma en entornos desconocidos o en constante cambio, reduciendo así la dependencia de mapas fijos. El aprendizaje profundo por refuerzo (DRL), con su rendimiento superior en el manejo de espacios de estado de alta dimensión y entornos dinámicos complejos, se ha aplicado ampliamente a la planificación de rutas dinámicas. Los métodos DRL tradicionales tienden a capturar información de ruido innecesaria y características irrelevantes durante el proceso de entrenamiento, lo que conduce a la inestabilidad y la disminución de la adaptabilidad de los modelos en entornos dinámicos complejos. Para abordar este desafío, proponemos un método de planificación de rutas dinámicas basado en nuestro algoritmo Causal State-Masking Twin-delayed Deep Deterministic Policy Gradient (CSM-TD3). CSM-TD3 integra un mecanismo de inferencia causal al introducir máscaras de estado dinámicas y mecanismos de intervención, lo que permite que la red de políticas se centre en características causales genuinas para la optimización de decisiones y, por lo tanto, mejore la velocidad de convergencia y las capacidades de generalización del agente. Además, el aprendizaje DRL con máscaras de estado causal permite que el sistema aprenda las configuraciones de máscara óptimas a través de la retropropagación, lo que permite que el modelo ajuste de forma adaptativa las características causales de interés. Los extensos resultados experimentales demuestran que este método mejora significativamente la convergencia del algoritmo TD3 y mejora de manera efectiva su rendimiento en la planificación de rutas dinámicas.
Descripción
La planificación de rutas dinámicas permite a los vehículos navegar de forma autónoma en entornos desconocidos o en constante cambio, reduciendo así la dependencia de mapas fijos. El aprendizaje profundo por refuerzo (DRL), con su rendimiento superior en el manejo de espacios de estado de alta dimensión y entornos dinámicos complejos, se ha aplicado ampliamente a la planificación de rutas dinámicas. Los métodos DRL tradicionales tienden a capturar información de ruido innecesaria y características irrelevantes durante el proceso de entrenamiento, lo que conduce a la inestabilidad y la disminución de la adaptabilidad de los modelos en entornos dinámicos complejos. Para abordar este desafío, proponemos un método de planificación de rutas dinámicas basado en nuestro algoritmo Causal State-Masking Twin-delayed Deep Deterministic Policy Gradient (CSM-TD3). CSM-TD3 integra un mecanismo de inferencia causal al introducir máscaras de estado dinámicas y mecanismos de intervención, lo que permite que la red de políticas se centre en características causales genuinas para la optimización de decisiones y, por lo tanto, mejore la velocidad de convergencia y las capacidades de generalización del agente. Además, el aprendizaje DRL con máscaras de estado causal permite que el sistema aprenda las configuraciones de máscara óptimas a través de la retropropagación, lo que permite que el modelo ajuste de forma adaptativa las características causales de interés. Los extensos resultados experimentales demuestran que este método mejora significativamente la convergencia del algoritmo TD3 y mejora de manera efectiva su rendimiento en la planificación de rutas dinámicas.