logo móvil
Contáctanos

Planificación dinámica de rutas para vehículos basada en aprendizaje profundo de refuerzo de enmascaramiento de estado causal

Autores: Hua, Xia; Zhang, Tengteng; Cao, Jun

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Planificación dinámica de rutas para vehículos basada en aprendizaje profundo de refuerzo de enmascaramiento de estado causal


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Planificación de ruta dinámica
Aprendizaje profundo por refuerzo
Enmascaramiento de estado causal
Algoritmo CSM-TD3
Entornos dinámicos
Velocidad de convergencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones


Descripción
La planificación de rutas dinámicas permite a los vehículos navegar de forma autónoma en entornos desconocidos o en constante cambio, reduciendo así la dependencia de mapas fijos. El aprendizaje profundo por refuerzo (DRL), con su rendimiento superior en el manejo de espacios de estado de alta dimensión y entornos dinámicos complejos, se ha aplicado ampliamente a la planificación de rutas dinámicas. Los métodos DRL tradicionales tienden a capturar información de ruido innecesaria y características irrelevantes durante el proceso de entrenamiento, lo que conduce a la inestabilidad y la disminución de la adaptabilidad de los modelos en entornos dinámicos complejos. Para abordar este desafío, proponemos un método de planificación de rutas dinámicas basado en nuestro algoritmo Causal State-Masking Twin-delayed Deep Deterministic Policy Gradient (CSM-TD3). CSM-TD3 integra un mecanismo de inferencia causal al introducir máscaras de estado dinámicas y mecanismos de intervención, lo que permite que la red de políticas se centre en características causales genuinas para la optimización de decisiones y, por lo tanto, mejore la velocidad de convergencia y las capacidades de generalización del agente. Además, el aprendizaje DRL con máscaras de estado causal permite que el sistema aprenda las configuraciones de máscara óptimas a través de la retropropagación, lo que permite que el modelo ajuste de forma adaptativa las características causales de interés. Los extensos resultados experimentales demuestran que este método mejora significativamente la convergencia del algoritmo TD3 y mejora de manera efectiva su rendimiento en la planificación de rutas dinámicas.

Otros recursos que podrían interesarte

Temas Virtualpro