Planificación de trayectorias en línea con aprendizaje por refuerzo para evitar peatones
Autores: Fehér, Árpád; Aradi, Szilárd; Bécsi, Tamás
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Planificación de trayectorias en línea con aprendizaje por refuerzo para evitar peatones
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Planificación
Trayectoria
Maniobras de evasión de emergencia
Vehículos automatizados
Aprendizaje por refuerzo
Entorno de simulación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Planificar la trayectoria óptima de maniobras de evasión de emergencia para vehículos altamente automatizados es una tarea compleja con muchos desafíos. El algoritmo necesita disminuir el riesgo de accidentes al reducir la gravedad y mantener el auto en un estado controlable. La generación de trayectorias óptimas considerando todos los aspectos de la dinámica del vehículo y del entorno es numéricamente compleja, especialmente si el objeto a evitar está en movimiento. Este documento presenta un método jerárquico para la evasión de objetos en movimiento en un vehículo autónomo, donde un agente de aprendizaje por refuerzo es responsable de la planificación local, mientras que el control longitudinal y lateral es realizado por el controlador predictivo de modelo de bajo nivel y los controladores Stanley. En la arquitectura desarrollada, el agente es responsable de la optimización. Se entrena en varios escenarios para proporcionar los parámetros necesarios para una trayectoria basada en polinomios y un perfil de velocidad en una salida de red neuronal. El vehículo solo realiza el primer paso de la trayectoria, que es rediseñado repetidamente por el planificador basado en el nuevo estado. En la fase de entrenamiento, el vehículo ejecuta toda la trayectoria a través de controladores de bajo nivel para determinar el valor de recompensa, lo que realiza una predicción para el futuro. El agente recibe retroalimentación y puede mejorar aún más su rendimiento. Finalmente, el marco propuesto fue probado en un entorno de simulación y también se comparó con las habilidades de los conductores humanos.
Descripción
Planificar la trayectoria óptima de maniobras de evasión de emergencia para vehículos altamente automatizados es una tarea compleja con muchos desafíos. El algoritmo necesita disminuir el riesgo de accidentes al reducir la gravedad y mantener el auto en un estado controlable. La generación de trayectorias óptimas considerando todos los aspectos de la dinámica del vehículo y del entorno es numéricamente compleja, especialmente si el objeto a evitar está en movimiento. Este documento presenta un método jerárquico para la evasión de objetos en movimiento en un vehículo autónomo, donde un agente de aprendizaje por refuerzo es responsable de la planificación local, mientras que el control longitudinal y lateral es realizado por el controlador predictivo de modelo de bajo nivel y los controladores Stanley. En la arquitectura desarrollada, el agente es responsable de la optimización. Se entrena en varios escenarios para proporcionar los parámetros necesarios para una trayectoria basada en polinomios y un perfil de velocidad en una salida de red neuronal. El vehículo solo realiza el primer paso de la trayectoria, que es rediseñado repetidamente por el planificador basado en el nuevo estado. En la fase de entrenamiento, el vehículo ejecuta toda la trayectoria a través de controladores de bajo nivel para determinar el valor de recompensa, lo que realiza una predicción para el futuro. El agente recibe retroalimentación y puede mejorar aún más su rendimiento. Finalmente, el marco propuesto fue probado en un entorno de simulación y también se comparó con las habilidades de los conductores humanos.