logo móvil
Contáctanos

Control de Vehículos Conectados y Automatizados de Giro a la Izquierda Basado en Aprendizaje por Refuerzo Profundo en Intersecciones Semaforizadas en un Entorno de Vehículo a Infraestructura

Autores: Chen, Juan; Xue, Zhengxuan; Fan, Daiqian

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Control de Vehículos Conectados y Automatizados de Giro a la Izquierda Basado en Aprendizaje por Refuerzo Profundo en Intersecciones Semaforizadas en un Entorno de Vehículo a Infraestructura


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Intersección
Algoritmo DDPG
Vehículo que gira a la izquierda
Semaforizado
Método de microcontrol
Aprendizaje profundo por refuerzo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Para resolver el problema del retraso de vehículos causado por paradas en intersecciones semaforizadas, se diseña en este artículo un método de microcontrol de un vehículo conectado y automatizado (CAV) que gira a la izquierda, basado en un gradiente de política determinista profundo (DDPG) mejorado. En este artículo, se considera el microcontrol de todo el proceso de un vehículo que gira a la izquierda al acercarse, entrar y salir de una intersección semaforizada. Además, para resolver los problemas de baja eficiencia de muestreo y sobreestimación de la red crítica del algoritmo DDPG, se adopta en este artículo un mecanismo de muestreo de búfer de experiencia de recompensa positiva y negativa y una estructura de red multi-crítica en el algoritmo DDPG. Finalmente, se verifica la efectividad del método de control semafórico, seis métodos basados en DDPG (DDPG, PNRERB-1C-DDPG, PNRERB-3C-DDPG, PNRERB-5C-DDPG, PNRERB-5CNG-DDPG y PNRERB-7C-DDPG), y cuatro métodos basados en DQN (DQN, Dueling DQN, Double DQN y Prioritized Replay DQN) bajo grados de saturación de 0.2, 0.5 y 0.7 de vehículos que giran a la izquierda en una intersección semaforizada dentro de un entorno de simulación VISSIM. Los resultados muestran que el método propuesto de aprendizaje profundo por refuerzo puede obtener una serie de beneficios en paradas que varían del 5% al 94%, beneficios en tiempo de parada que varían del 1% al 99%, y beneficios en retraso que varían del -17% al 93%, en comparación con el método tradicional de control semafórico.

Otros recursos que podrían interesarte

Temas Virtualpro