Método de aprendizaje por refuerzo multiagente de campo medio para el control de señales de tráfico en área
Autores: Zhang, Zundong; Zhang, Wei; Liu, Yuke; Xiong, Gang
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Método de aprendizaje por refuerzo multiagente de campo medio para el control de señales de tráfico en área
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje por refuerzo
Control de semáforos
Redes neuronales profundas
Teoría de campo medio
Aprendizaje por refuerzo multiagente
Plataforma de simulación SUMO
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
El aprendizaje por refuerzo es un método efectivo para el control adaptativo de señales de tráfico en redes de transporte urbano. A medida que aumenta el número de rondas de entrenamiento, se aprende la estrategia de control óptima y se mejoran aún más las capacidades de aprendizaje de las redes neuronales profundas, evitando así las limitaciones de los métodos tradicionales de control de señales. Sin embargo, al enfrentarse a tareas de decisión secuenciales de control de señales regionales, se enfrenta a problemas como la maldición de la dimensionalidad y la no estacionariedad ambiental. Para abordar las limitaciones de los algoritmos tradicionales de aprendizaje por refuerzo aplicados a múltiples intersecciones, se aplica la teoría de campos medios. Esto modela el problema de control de señales de tráfico en múltiples intersecciones dentro de una región como interacciones entre intersecciones individuales y los efectos promedio de las intersecciones vecinas. Al descomponer la función Q a través de estimaciones bilaterales entre el agente y sus vecinos, este método reduce la complejidad de las interacciones entre agentes mientras preserva las interacciones globales entre los agentes. Se construyó un modelo de control de señales de tráfico basado en Aprendizaje por Refuerzo Multiagente de Campo Medio (MFMARL), que contenía dos algoritmos: Control de Señales de Tráfico de Área de Red Neuronal de Campo Medio Q (MFQ-ATSC) y Control de Señales de Tráfico de Área de Red Neuronal Actor-Crítico de Campo Medio (MFAC-ATSC). El modelo fue validado utilizando la plataforma de simulación SUMO. Los resultados experimentales indican que, en diferentes métricas, como la velocidad promedio, el método de aprendizaje por refuerzo de campo medio supera a los métodos clásicos de control de señales y a varios enfoques existentes.
Descripción
El aprendizaje por refuerzo es un método efectivo para el control adaptativo de señales de tráfico en redes de transporte urbano. A medida que aumenta el número de rondas de entrenamiento, se aprende la estrategia de control óptima y se mejoran aún más las capacidades de aprendizaje de las redes neuronales profundas, evitando así las limitaciones de los métodos tradicionales de control de señales. Sin embargo, al enfrentarse a tareas de decisión secuenciales de control de señales regionales, se enfrenta a problemas como la maldición de la dimensionalidad y la no estacionariedad ambiental. Para abordar las limitaciones de los algoritmos tradicionales de aprendizaje por refuerzo aplicados a múltiples intersecciones, se aplica la teoría de campos medios. Esto modela el problema de control de señales de tráfico en múltiples intersecciones dentro de una región como interacciones entre intersecciones individuales y los efectos promedio de las intersecciones vecinas. Al descomponer la función Q a través de estimaciones bilaterales entre el agente y sus vecinos, este método reduce la complejidad de las interacciones entre agentes mientras preserva las interacciones globales entre los agentes. Se construyó un modelo de control de señales de tráfico basado en Aprendizaje por Refuerzo Multiagente de Campo Medio (MFMARL), que contenía dos algoritmos: Control de Señales de Tráfico de Área de Red Neuronal de Campo Medio Q (MFQ-ATSC) y Control de Señales de Tráfico de Área de Red Neuronal Actor-Crítico de Campo Medio (MFAC-ATSC). El modelo fue validado utilizando la plataforma de simulación SUMO. Los resultados experimentales indican que, en diferentes métricas, como la velocidad promedio, el método de aprendizaje por refuerzo de campo medio supera a los métodos clásicos de control de señales y a varios enfoques existentes.