Método de aprendizaje por refuerzo multiagente asistido por juego de población para la selección dinámica de rutas de múltiples vehículos
Autores: Yan, Liping; Cai, Yu
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Método de aprendizaje por refuerzo multiagente asistido por juego de población para la selección dinámica de rutas de múltiples vehículos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Congestión del tráfico urbano
Algoritmos de selección de rutas
Optimización de rutas para múltiples vehículos
Información de flujo de tráfico
Equilibrio de Nash
Plataforma de simulación de tráfico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
Para abordar la congestión del tráfico urbano, los investigadores han realizado diversos esfuerzos para mitigar problemas como el tiempo de viaje prolongado, el desperdicio de combustible y las emisiones de contaminantes. Estos esfuerzos implican principalmente la selección de rutas microscópicas desde la perspectiva del vehículo, la optimización de rutas multi-vehículo basada en información de flujo de tráfico y datos históricos, y la optimización de rutas coordinadas que modelan la interacción de vehículos como un comportamiento de juego. Sin embargo, los algoritmos de selección de rutas existentes sufren limitaciones como la falta de heurística, baja dinamicidad, ciclos de aprendizaje prolongados y vulnerabilidad a conflictos de rutas multi-vehículo. Para aliviar aún más la congestión del tráfico, este documento presenta un Modelo de Selección de Rutas de Periodo-Etapa-Ronda (PSRRSM), que utiliza un juego de población entre vehículos en cada intersección para resolver el equilibrio de Nash. Además, se propone un Algoritmo de Aprendizaje de Periodo para Selección de Rutas (PLA-RS), que se basa en un gradiente de política determinista profundo multiagente. El algoritmo permite a los agentes aprender del juego de población y eventualmente pasar a un aprendizaje autónomo, adaptándose a diferentes roles de toma de decisiones en diferentes periodos. El PSRRSM se valida experimentalmente utilizando la plataforma de simulación de tráfico SUMO (Simulation of Urban Mobility) en redes de carreteras artificiales y reales. Los resultados experimentales demuestran que el PSRRSM supera a varios algoritmos comparativos en términos de rendimiento de red y costo promedio de viaje. Esto se logra a través de la coordinación de la optimización de rutas de múltiples vehículos, facilitada por juegos de población entre vehículos y comunicación entre agentes de carretera durante el entrenamiento, lo que permite que las estrategias de vehículos alcancen un equilibrio de Nash.
Descripción
Para abordar la congestión del tráfico urbano, los investigadores han realizado diversos esfuerzos para mitigar problemas como el tiempo de viaje prolongado, el desperdicio de combustible y las emisiones de contaminantes. Estos esfuerzos implican principalmente la selección de rutas microscópicas desde la perspectiva del vehículo, la optimización de rutas multi-vehículo basada en información de flujo de tráfico y datos históricos, y la optimización de rutas coordinadas que modelan la interacción de vehículos como un comportamiento de juego. Sin embargo, los algoritmos de selección de rutas existentes sufren limitaciones como la falta de heurística, baja dinamicidad, ciclos de aprendizaje prolongados y vulnerabilidad a conflictos de rutas multi-vehículo. Para aliviar aún más la congestión del tráfico, este documento presenta un Modelo de Selección de Rutas de Periodo-Etapa-Ronda (PSRRSM), que utiliza un juego de población entre vehículos en cada intersección para resolver el equilibrio de Nash. Además, se propone un Algoritmo de Aprendizaje de Periodo para Selección de Rutas (PLA-RS), que se basa en un gradiente de política determinista profundo multiagente. El algoritmo permite a los agentes aprender del juego de población y eventualmente pasar a un aprendizaje autónomo, adaptándose a diferentes roles de toma de decisiones en diferentes periodos. El PSRRSM se valida experimentalmente utilizando la plataforma de simulación de tráfico SUMO (Simulation of Urban Mobility) en redes de carreteras artificiales y reales. Los resultados experimentales demuestran que el PSRRSM supera a varios algoritmos comparativos en términos de rendimiento de red y costo promedio de viaje. Esto se logra a través de la coordinación de la optimización de rutas de múltiples vehículos, facilitada por juegos de población entre vehículos y comunicación entre agentes de carretera durante el entrenamiento, lo que permite que las estrategias de vehículos alcancen un equilibrio de Nash.