Vn-maddpg: un algoritmo de aprendizaje por refuerzo multiagente basado en ruido variable para vehículos autónomos en intersecciones sin señales
Autores: Zhang, Hao; Du, Yu; Zhao, Shixin; Yuan, Ying; Gao, Qiuqi
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Vn-maddpg: un algoritmo de aprendizaje por refuerzo multiagente basado en ruido variable para vehículos autónomos en intersecciones sin señales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Vehículos autónomos
Modelo de toma de decisiones
Algoritmo Variable-Noise Multi-Agent Deep Deterministic Policy Gradient (VN-MADDPG)
Estabilidad
Módulo de muestreo de importancia
Plataforma de simulación CARLA
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
El rendimiento de toma de decisiones de los vehículos autónomos tiende a ser inestable en intersecciones sin señalización, lo que les dificulta tomar decisiones óptimas. Proponemos un modelo de toma de decisiones basado en el algoritmo Variable-Noise Multi-Agent Deep Deterministic Policy Gradient (VN-MADDPG) para abordar estos problemas. El mecanismo de ruido variable reduce el ruido dinámicamente, permitiendo que el agente utilice la política aprendida de manera más efectiva para completar tareas. Esto mejora significativamente la estabilidad del modelo de toma de decisiones al tomar decisiones óptimas. El módulo de muestreo de importancia aborda la inconsistencia entre la experiencia obsoleta en el búfer de reproducción y las características ambientales actuales. Esto mejora la eficiencia de aprendizaje del modelo y aumenta la robustez del modelo de toma de decisiones. Los resultados experimentales en la plataforma de simulación CARLA muestran que la tasa de éxito de la toma de decisiones en intersecciones sin señalización por parte de los vehículos autónomos ha aumentado significativamente, y el tiempo de paso se ha reducido. El modelo de toma de decisiones basado en el algoritmo VN-MADDPG demuestra un rendimiento estable y excelente en la toma de decisiones.
Descripción
El rendimiento de toma de decisiones de los vehículos autónomos tiende a ser inestable en intersecciones sin señalización, lo que les dificulta tomar decisiones óptimas. Proponemos un modelo de toma de decisiones basado en el algoritmo Variable-Noise Multi-Agent Deep Deterministic Policy Gradient (VN-MADDPG) para abordar estos problemas. El mecanismo de ruido variable reduce el ruido dinámicamente, permitiendo que el agente utilice la política aprendida de manera más efectiva para completar tareas. Esto mejora significativamente la estabilidad del modelo de toma de decisiones al tomar decisiones óptimas. El módulo de muestreo de importancia aborda la inconsistencia entre la experiencia obsoleta en el búfer de reproducción y las características ambientales actuales. Esto mejora la eficiencia de aprendizaje del modelo y aumenta la robustez del modelo de toma de decisiones. Los resultados experimentales en la plataforma de simulación CARLA muestran que la tasa de éxito de la toma de decisiones en intersecciones sin señalización por parte de los vehículos autónomos ha aumentado significativamente, y el tiempo de paso se ha reducido. El modelo de toma de decisiones basado en el algoritmo VN-MADDPG demuestra un rendimiento estable y excelente en la toma de decisiones.