Enfoque cooperativo MARL-PPO para la fusión automatizada de convoyes en autopistas
Autores: Kolat, Máté; Bécsi, Tamás
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Enfoque cooperativo MARL-PPO para la fusión automatizada de convoyes en autopistas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Cooperativo
Estrategia de convoy en carretera
Aprendizaje por Refuerzo Multiagente
Optimización de Política Proximal
Fusión
MARL
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 54
Citaciones: Sin citaciones
Este documento presenta una estrategia cooperativa de formación en convoy para autopistas que integra el Aprendizaje por Refuerzo Multiagente (MARL) con la Optimización de Política Proximal (PPO) para gestionar de manera efectiva la compleja tarea de la fusión. En los sistemas de transporte modernos, la formación en convoy, donde varios vehículos viajan juntos bajo un control coordinado, promete mejoras significativas en el flujo de tráfico y la eficiencia de combustible. Sin embargo, el desafío de la fusión, que implica ajustar dinámicamente la formación para incorporar nuevos vehículos, sigue siendo complicado. Nuestro enfoque aprovecha las fortalezas de MARL para permitir que los vehículos individuales dentro de un convoy aprendan comportamientos óptimos a través de interacciones. PPO garantiza un aprendizaje estable y eficiente al optimizar políticas que equilibran la exploración y la explotación. Los resultados de la simulación muestran que nuestro método logra la fusión con seguridad y eficiencia operativa.
Descripción
Este documento presenta una estrategia cooperativa de formación en convoy para autopistas que integra el Aprendizaje por Refuerzo Multiagente (MARL) con la Optimización de Política Proximal (PPO) para gestionar de manera efectiva la compleja tarea de la fusión. En los sistemas de transporte modernos, la formación en convoy, donde varios vehículos viajan juntos bajo un control coordinado, promete mejoras significativas en el flujo de tráfico y la eficiencia de combustible. Sin embargo, el desafío de la fusión, que implica ajustar dinámicamente la formación para incorporar nuevos vehículos, sigue siendo complicado. Nuestro enfoque aprovecha las fortalezas de MARL para permitir que los vehículos individuales dentro de un convoy aprendan comportamientos óptimos a través de interacciones. PPO garantiza un aprendizaje estable y eficiente al optimizar políticas que equilibran la exploración y la explotación. Los resultados de la simulación muestran que nuestro método logra la fusión con seguridad y eficiencia operativa.