logo móvil
Contáctanos

Planificación de trayectorias en línea con aprendizaje por refuerzo para evitar peatones

Autores: Fehér, Árpád; Aradi, Szilárd; Bécsi, Tamás

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Planificación de trayectorias en línea con aprendizaje por refuerzo para evitar peatones


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Planificación
Trayectoria
Maniobras de evasión de emergencia
Vehículos automatizados
Aprendizaje por refuerzo
Entorno de simulación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
Planificar la trayectoria óptima de maniobras de evasión de emergencia para vehículos altamente automatizados es una tarea compleja con muchos desafíos. El algoritmo necesita disminuir el riesgo de accidentes al reducir la gravedad y mantener el auto en un estado controlable. La generación de trayectorias óptimas considerando todos los aspectos de la dinámica del vehículo y del entorno es numéricamente compleja, especialmente si el objeto a evitar está en movimiento. Este documento presenta un método jerárquico para la evasión de objetos en movimiento en un vehículo autónomo, donde un agente de aprendizaje por refuerzo es responsable de la planificación local, mientras que el control longitudinal y lateral es realizado por el controlador predictivo de modelo de bajo nivel y los controladores Stanley. En la arquitectura desarrollada, el agente es responsable de la optimización. Se entrena en varios escenarios para proporcionar los parámetros necesarios para una trayectoria basada en polinomios y un perfil de velocidad en una salida de red neuronal. El vehículo solo realiza el primer paso de la trayectoria, que es rediseñado repetidamente por el planificador basado en el nuevo estado. En la fase de entrenamiento, el vehículo ejecuta toda la trayectoria a través de controladores de bajo nivel para determinar el valor de recompensa, lo que realiza una predicción para el futuro. El agente recibe retroalimentación y puede mejorar aún más su rendimiento. Finalmente, el marco propuesto fue probado en un entorno de simulación y también se comparó con las habilidades de los conductores humanos.

Otros recursos que podrían interesarte

Temas Virtualpro