logo móvil
Contáctanos

Aprendizaje por refuerzo basado en la decisión de cambio de carril para VCA en flujo de tráfico mixto bajo condiciones de baja visibilidad

Autores: Gong, Bowen; Xu, Zhipeng; Wei, Ruixin; Wang, Tao; Lin, Ciyun; Gao, Peng

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Aprendizaje por refuerzo basado en la decisión de cambio de carril para VCA en flujo de tráfico mixto bajo condiciones de baja visibilidad


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Conducción autónoma
Condiciones de tráfico mixtas
Vehículos autónomos conectados
Vehículos conducidos por humanos
Decisiones de cambio de carril
Gradiente de política determinista profunda

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones


Descripción
Como una etapa importante en el desarrollo de la conducción autónoma, las condiciones de tráfico mixto, que consisten en vehículos autónomos conectados (CAVs) y vehículos conducidos por humanos (HDVs), han atraído cada vez más atención. De hecho, la aleatoriedad de los vehículos conducidos por humanos (HDV) es el mayor desafío para que los vehículos autónomos conectados (CAV) tomen decisiones razonables, especialmente en escenarios de cambio de carril. En este documento, proponemos por primera vez el problema de las decisiones de cambio de carril para CAV en condiciones de baja visibilidad y tráfico mixto. Primero, consideramos la aleatoriedad de HDV en este entorno y construimos un modelo de máquina de estados finitos (FSM). Luego, este estudio desarrolla un proceso de decisión de Markov parcialmente observado (POMDP) para describir el problema de cambio de carril. Además, utilizamos el algoritmo de gradiente de política determinista profunda modificado (DDPG) para resolver el problema y obtener la decisión óptima de cambio de carril en este entorno. El diseño de la recompensa tiene en cuenta la comodidad, seguridad y eficiencia del vehículo, y la introducción de aprendizaje por transferencia acelera la adaptación de CAV a la aleatoriedad de HDV. Finalmente, se realizan experimentos numéricos. Los resultados muestran que, en comparación con el DDPG original, el DDPG modificado tiene una velocidad de convergencia más rápida. La estrategia aprendida por el DDPG modificado puede completar el cambio de carril en la mayoría de los escenarios. La comparación entre el DDPG modificado y las decisiones basadas en reglas indica que el DDPG modificado tiene una mayor capacidad de adaptación a este entorno especial y puede aprovechar más oportunidades de cambio de carril.

Otros recursos que podrían interesarte

Temas Virtualpro