Método de aprendizaje por refuerzo multiagente asistido por juego de población para la selección dinámica de rutas de múltiples vehículos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Método de aprendizaje por refuerzo multiagente asistido por juego de población para la selección dinámica de rutas de múltiples vehículos

Autores: Yan, Liping; Cai, Yu

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Método de aprendizaje por refuerzo multiagente asistido por juego de población para la selección dinámica de rutas de múltiples vehículos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Congestión del tráfico urbano

Algoritmos de selección de rutas

Optimización de rutas para múltiples vehículos

Información de flujo de tráfico

Equilibrio de Nash

Plataforma de simulación de tráfico

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones

Para abordar la congestión del tráfico urbano, los investigadores han realizado diversos esfuerzos para mitigar problemas como el tiempo de viaje prolongado, el desperdicio de combustible y las emisiones de contaminantes. Estos esfuerzos implican principalmente la selección de rutas microscópicas desde la perspectiva del vehículo, la optimización de rutas multi-vehículo basada en información de flujo de tráfico y datos históricos, y la optimización de rutas coordinadas que modelan la interacción de vehículos como un comportamiento de juego. Sin embargo, los algoritmos de selección de rutas existentes sufren limitaciones como la falta de heurística, baja dinamicidad, ciclos de aprendizaje prolongados y vulnerabilidad a conflictos de rutas multi-vehículo. Para aliviar aún más la congestión del tráfico, este documento presenta un Modelo de Selección de Rutas de Periodo-Etapa-Ronda (PSRRSM), que utiliza un juego de población entre vehículos en cada intersección para resolver el equilibrio de Nash. Además, se propone un Algoritmo de Aprendizaje de Periodo para Selección de Rutas (PLA-RS), que se basa en un gradiente de política determinista profundo multiagente. El algoritmo permite a los agentes aprender del juego de población y eventualmente pasar a un aprendizaje autónomo, adaptándose a diferentes roles de toma de decisiones en diferentes periodos. El PSRRSM se valida experimentalmente utilizando la plataforma de simulación de tráfico SUMO (Simulation of Urban Mobility) en redes de carreteras artificiales y reales. Los resultados experimentales demuestran que el PSRRSM supera a varios algoritmos comparativos en términos de rendimiento de red y costo promedio de viaje. Esto se logra a través de la coordinación de la optimización de rutas de múltiples vehículos, facilitada por juegos de población entre vehículos y comunicación entre agentes de carretera durante el entrenamiento, lo que permite que las estrategias de vehículos alcancen un equilibrio de Nash.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro