Planificación de trayectorias en línea con aprendizaje por refuerzo para evitar peatones

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Planificación de trayectorias en línea con aprendizaje por refuerzo para evitar peatones

Autores: Fehér, Árpád; Aradi, Szilárd; Bécsi, Tamás

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Planificación de trayectorias en línea con aprendizaje por refuerzo para evitar peatones

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Planificación

Trayectoria

Maniobras de evasión de emergencia

Vehículos automatizados

Aprendizaje por refuerzo

Entorno de simulación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones

Planificar la trayectoria óptima de maniobras de evasión de emergencia para vehículos altamente automatizados es una tarea compleja con muchos desafíos. El algoritmo necesita disminuir el riesgo de accidentes al reducir la gravedad y mantener el auto en un estado controlable. La generación de trayectorias óptimas considerando todos los aspectos de la dinámica del vehículo y del entorno es numéricamente compleja, especialmente si el objeto a evitar está en movimiento. Este documento presenta un método jerárquico para la evasión de objetos en movimiento en un vehículo autónomo, donde un agente de aprendizaje por refuerzo es responsable de la planificación local, mientras que el control longitudinal y lateral es realizado por el controlador predictivo de modelo de bajo nivel y los controladores Stanley. En la arquitectura desarrollada, el agente es responsable de la optimización. Se entrena en varios escenarios para proporcionar los parámetros necesarios para una trayectoria basada en polinomios y un perfil de velocidad en una salida de red neuronal. El vehículo solo realiza el primer paso de la trayectoria, que es rediseñado repetidamente por el planificador basado en el nuevo estado. En la fase de entrenamiento, el vehículo ejecuta toda la trayectoria a través de controladores de bajo nivel para determinar el valor de recompensa, lo que realiza una predicción para el futuro. El agente recibe retroalimentación y puede mejorar aún más su rendimiento. Finalmente, el marco propuesto fue probado en un entorno de simulación y también se comparó con las habilidades de los conductores humanos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro