Diseño de Función de Recompensa de Aprendizaje por Refuerzo Profundo para la Conducción Autónoma en Tráfico Sin Carriles
Autores: Karalakou, Athanasia; Troullinos, Dimitrios; Chalkiadakis, Georgios; Papageorgiou, Markos
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Diseño de Función de Recompensa de Aprendizaje por Refuerzo Profundo para la Conducción Autónoma en Tráfico Sin Carriles
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Vehículos
Carriles
Tráfico sin carriles
Aprendizaje profundo por refuerzo
Función de recompensa
Conducción autónoma
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
El tráfico sin carriles es un nuevo dominio de investigación, en el que los vehículos ya no se adhieren a la noción de carriles y consideran todo el espacio lateral dentro de los límites de la carretera. Esto constituye un dominio de problema completamente diferente para la conducción autónoma en comparación con el tráfico basado en carriles, ya que no hay un vehículo líder ni operación de cambio de carril. Por lo tanto, las observaciones de los vehículos deben adaptarse adecuadamente al entorno sin carriles sin arrastrar sesgos de enfoques basados en carriles. Los recientes éxitos del aprendizaje por refuerzo profundo (DRL) para enfoques basados en carriles, junto con el trabajo emergente para entornos de tráfico sin carriles, hacen que el DRL para tráfico sin carriles sea un esfuerzo interesante para investigar. En este documento, proporcionamos una mirada extensa a la formulación del DRL, centrándonos en la función de recompensa de un agente de conducción autónoma sin carriles. Nuestro principal interés es diseñar una función de recompensa efectiva, ya que el modelo de recompensa es crucial para determinar la eficiencia general de la política resultante. Específicamente, construimos diferentes componentes de funciones de recompensa vinculados al entorno en varios niveles de información. Luego, combinamos y recopilamos los componentes mencionados anteriormente, y nos enfocamos en alcanzar una función de recompensa que resulte en una política que logre reducir las colisiones entre vehículos y abordar su requerimiento de mantener una velocidad deseada. Además, empleamos dos algoritmos populares de DRL, a saber, redes Q profundas (mejoradas con algunas extensiones comúnmente utilizadas) y el gradiente de política determinista profundo (DDPG), lo que resulta en mejores políticas. Nuestros experimentos proporcionan un estudio investigativo exhaustivo sobre la efectividad de diferentes combinaciones entre los varios componentes de recompensa que proponemos, y confirman que nuestro vehículo autónomo que emplea DRL es capaz de aprender gradualmente políticas efectivas en entornos con diferentes niveles de dificultad, especialmente cuando todos los componentes de recompensa propuestos se combinan adecuadamente.
Descripción
El tráfico sin carriles es un nuevo dominio de investigación, en el que los vehículos ya no se adhieren a la noción de carriles y consideran todo el espacio lateral dentro de los límites de la carretera. Esto constituye un dominio de problema completamente diferente para la conducción autónoma en comparación con el tráfico basado en carriles, ya que no hay un vehículo líder ni operación de cambio de carril. Por lo tanto, las observaciones de los vehículos deben adaptarse adecuadamente al entorno sin carriles sin arrastrar sesgos de enfoques basados en carriles. Los recientes éxitos del aprendizaje por refuerzo profundo (DRL) para enfoques basados en carriles, junto con el trabajo emergente para entornos de tráfico sin carriles, hacen que el DRL para tráfico sin carriles sea un esfuerzo interesante para investigar. En este documento, proporcionamos una mirada extensa a la formulación del DRL, centrándonos en la función de recompensa de un agente de conducción autónoma sin carriles. Nuestro principal interés es diseñar una función de recompensa efectiva, ya que el modelo de recompensa es crucial para determinar la eficiencia general de la política resultante. Específicamente, construimos diferentes componentes de funciones de recompensa vinculados al entorno en varios niveles de información. Luego, combinamos y recopilamos los componentes mencionados anteriormente, y nos enfocamos en alcanzar una función de recompensa que resulte en una política que logre reducir las colisiones entre vehículos y abordar su requerimiento de mantener una velocidad deseada. Además, empleamos dos algoritmos populares de DRL, a saber, redes Q profundas (mejoradas con algunas extensiones comúnmente utilizadas) y el gradiente de política determinista profundo (DDPG), lo que resulta en mejores políticas. Nuestros experimentos proporcionan un estudio investigativo exhaustivo sobre la efectividad de diferentes combinaciones entre los varios componentes de recompensa que proponemos, y confirman que nuestro vehículo autónomo que emplea DRL es capaz de aprender gradualmente políticas efectivas en entornos con diferentes niveles de dificultad, especialmente cuando todos los componentes de recompensa propuestos se combinan adecuadamente.