Control de Vehículos Conectados y Automatizados de Giro a la Izquierda Basado en Aprendizaje por Refuerzo Profundo en Intersecciones Semaforizadas en un Entorno de Vehículo a Infraestructura
Autores: Chen, Juan; Xue, Zhengxuan; Fan, Daiqian
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Control de Vehículos Conectados y Automatizados de Giro a la Izquierda Basado en Aprendizaje por Refuerzo Profundo en Intersecciones Semaforizadas en un Entorno de Vehículo a Infraestructura
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Intersección
Algoritmo DDPG
Vehículo que gira a la izquierda
Semaforizado
Método de microcontrol
Aprendizaje profundo por refuerzo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Para resolver el problema del retraso de vehículos causado por paradas en intersecciones semaforizadas, se diseña en este artículo un método de microcontrol de un vehículo conectado y automatizado (CAV) que gira a la izquierda, basado en un gradiente de política determinista profundo (DDPG) mejorado. En este artículo, se considera el microcontrol de todo el proceso de un vehículo que gira a la izquierda al acercarse, entrar y salir de una intersección semaforizada. Además, para resolver los problemas de baja eficiencia de muestreo y sobreestimación de la red crítica del algoritmo DDPG, se adopta en este artículo un mecanismo de muestreo de búfer de experiencia de recompensa positiva y negativa y una estructura de red multi-crítica en el algoritmo DDPG. Finalmente, se verifica la efectividad del método de control semafórico, seis métodos basados en DDPG (DDPG, PNRERB-1C-DDPG, PNRERB-3C-DDPG, PNRERB-5C-DDPG, PNRERB-5CNG-DDPG y PNRERB-7C-DDPG), y cuatro métodos basados en DQN (DQN, Dueling DQN, Double DQN y Prioritized Replay DQN) bajo grados de saturación de 0.2, 0.5 y 0.7 de vehículos que giran a la izquierda en una intersección semaforizada dentro de un entorno de simulación VISSIM. Los resultados muestran que el método propuesto de aprendizaje profundo por refuerzo puede obtener una serie de beneficios en paradas que varían del 5% al 94%, beneficios en tiempo de parada que varían del 1% al 99%, y beneficios en retraso que varían del -17% al 93%, en comparación con el método tradicional de control semafórico.
Descripción
Para resolver el problema del retraso de vehículos causado por paradas en intersecciones semaforizadas, se diseña en este artículo un método de microcontrol de un vehículo conectado y automatizado (CAV) que gira a la izquierda, basado en un gradiente de política determinista profundo (DDPG) mejorado. En este artículo, se considera el microcontrol de todo el proceso de un vehículo que gira a la izquierda al acercarse, entrar y salir de una intersección semaforizada. Además, para resolver los problemas de baja eficiencia de muestreo y sobreestimación de la red crítica del algoritmo DDPG, se adopta en este artículo un mecanismo de muestreo de búfer de experiencia de recompensa positiva y negativa y una estructura de red multi-crítica en el algoritmo DDPG. Finalmente, se verifica la efectividad del método de control semafórico, seis métodos basados en DDPG (DDPG, PNRERB-1C-DDPG, PNRERB-3C-DDPG, PNRERB-5C-DDPG, PNRERB-5CNG-DDPG y PNRERB-7C-DDPG), y cuatro métodos basados en DQN (DQN, Dueling DQN, Double DQN y Prioritized Replay DQN) bajo grados de saturación de 0.2, 0.5 y 0.7 de vehículos que giran a la izquierda en una intersección semaforizada dentro de un entorno de simulación VISSIM. Los resultados muestran que el método propuesto de aprendizaje profundo por refuerzo puede obtener una serie de beneficios en paradas que varían del 5% al 94%, beneficios en tiempo de parada que varían del 1% al 99%, y beneficios en retraso que varían del -17% al 93%, en comparación con el método tradicional de control semafórico.