Planificación dinámica de rutas para vehículos basada en aprendizaje profundo de refuerzo de enmascaramiento de estado causal

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Planificación dinámica de rutas para vehículos basada en aprendizaje profundo de refuerzo de enmascaramiento de estado causal

Autores: Hua, Xia; Zhang, Tengteng; Cao, Jun

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Planificación dinámica de rutas para vehículos basada en aprendizaje profundo de refuerzo de enmascaramiento de estado causal

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Planificación de ruta dinámica

Aprendizaje profundo por refuerzo

Enmascaramiento de estado causal

Algoritmo CSM-TD3

Entornos dinámicos

Velocidad de convergencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones

La planificación de rutas dinámicas permite a los vehículos navegar de forma autónoma en entornos desconocidos o en constante cambio, reduciendo así la dependencia de mapas fijos. El aprendizaje profundo por refuerzo (DRL), con su rendimiento superior en el manejo de espacios de estado de alta dimensión y entornos dinámicos complejos, se ha aplicado ampliamente a la planificación de rutas dinámicas. Los métodos DRL tradicionales tienden a capturar información de ruido innecesaria y características irrelevantes durante el proceso de entrenamiento, lo que conduce a la inestabilidad y la disminución de la adaptabilidad de los modelos en entornos dinámicos complejos. Para abordar este desafío, proponemos un método de planificación de rutas dinámicas basado en nuestro algoritmo Causal State-Masking Twin-delayed Deep Deterministic Policy Gradient (CSM-TD3). CSM-TD3 integra un mecanismo de inferencia causal al introducir máscaras de estado dinámicas y mecanismos de intervención, lo que permite que la red de políticas se centre en características causales genuinas para la optimización de decisiones y, por lo tanto, mejore la velocidad de convergencia y las capacidades de generalización del agente. Además, el aprendizaje DRL con máscaras de estado causal permite que el sistema aprenda las configuraciones de máscara óptimas a través de la retropropagación, lo que permite que el modelo ajuste de forma adaptativa las características causales de interés. Los extensos resultados experimentales demuestran que este método mejora significativamente la convergencia del algoritmo TD3 y mejora de manera efectiva su rendimiento en la planificación de rutas dinámicas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro