logo móvil
Contáctanos

Diseño de Función de Recompensa de Aprendizaje por Refuerzo Profundo para la Conducción Autónoma en Tráfico Sin Carriles

Autores: Karalakou, Athanasia; Troullinos, Dimitrios; Chalkiadakis, Georgios; Papageorgiou, Markos

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Diseño de Función de Recompensa de Aprendizaje por Refuerzo Profundo para la Conducción Autónoma en Tráfico Sin Carriles


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Vehículos
Carriles
Tráfico sin carriles
Aprendizaje profundo por refuerzo
Función de recompensa
Conducción autónoma

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones


Descripción
El tráfico sin carriles es un nuevo dominio de investigación, en el que los vehículos ya no se adhieren a la noción de carriles y consideran todo el espacio lateral dentro de los límites de la carretera. Esto constituye un dominio de problema completamente diferente para la conducción autónoma en comparación con el tráfico basado en carriles, ya que no hay un vehículo líder ni operación de cambio de carril. Por lo tanto, las observaciones de los vehículos deben adaptarse adecuadamente al entorno sin carriles sin arrastrar sesgos de enfoques basados en carriles. Los recientes éxitos del aprendizaje por refuerzo profundo (DRL) para enfoques basados en carriles, junto con el trabajo emergente para entornos de tráfico sin carriles, hacen que el DRL para tráfico sin carriles sea un esfuerzo interesante para investigar. En este documento, proporcionamos una mirada extensa a la formulación del DRL, centrándonos en la función de recompensa de un agente de conducción autónoma sin carriles. Nuestro principal interés es diseñar una función de recompensa efectiva, ya que el modelo de recompensa es crucial para determinar la eficiencia general de la política resultante. Específicamente, construimos diferentes componentes de funciones de recompensa vinculados al entorno en varios niveles de información. Luego, combinamos y recopilamos los componentes mencionados anteriormente, y nos enfocamos en alcanzar una función de recompensa que resulte en una política que logre reducir las colisiones entre vehículos y abordar su requerimiento de mantener una velocidad deseada. Además, empleamos dos algoritmos populares de DRL, a saber, redes Q profundas (mejoradas con algunas extensiones comúnmente utilizadas) y el gradiente de política determinista profundo (DDPG), lo que resulta en mejores políticas. Nuestros experimentos proporcionan un estudio investigativo exhaustivo sobre la efectividad de diferentes combinaciones entre los varios componentes de recompensa que proponemos, y confirman que nuestro vehículo autónomo que emplea DRL es capaz de aprender gradualmente políticas efectivas en entornos con diferentes niveles de dificultad, especialmente cuando todos los componentes de recompensa propuestos se combinan adecuadamente.

Otros recursos que podrían interesarte

Temas Virtualpro