Aprendizaje por Refuerzo Profundo para el Seguimiento de Trayectorias de Vehículos Autónomos de Dirección Deslizante Dinámica
Autores: Srikonda, Sandeep; Norris, William Robert; Nottage, Dustin; Soylemezoglu, Ahmet
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendizaje por Refuerzo Profundo para el Seguimiento de Trayectorias de Vehículos Autónomos de Dirección Deslizante Dinámica
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Controladores
Robots de ruedas con dirección por deslizamiento
Aprendizaje por refuerzo
Gradientes de Política Determinista Profunda
Redes neuronales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
El diseño de controladores para robots de ruedas con dirección por deslizamiento es complejo debido a la interacción de los neumáticos con el suelo y el deslizamiento de las ruedas causado por el mecanismo de conducción por deslizamiento, lo que lleva a dinámicas no lineales. Debido al reciente éxito de los algoritmos de aprendizaje por refuerzo para el control de robots móviles, se implementó con éxito el Gradiente de Política Determinista Profunda (DDPG) y se diseñó un algoritmo para problemas de control continuo. Se abordaron las dinámicas complejas del modelo del vehículo y se aprovecharon las ventajas de las redes neuronales profundas por su capacidad de generalización. Se utilizó el aprendizaje por refuerzo para recopilar información y entrenar al agente de manera no supervisada. Se demostró el rendimiento de la política entrenada en la simulación del modelo dinámico de seis grados de libertad con interacciones de fuerza en el suelo. El sistema cumplió con el requisito de mantenerse dentro de la distancia de la mitad del ancho del vehículo respecto a las trayectorias de referencia.
Descripción
El diseño de controladores para robots de ruedas con dirección por deslizamiento es complejo debido a la interacción de los neumáticos con el suelo y el deslizamiento de las ruedas causado por el mecanismo de conducción por deslizamiento, lo que lleva a dinámicas no lineales. Debido al reciente éxito de los algoritmos de aprendizaje por refuerzo para el control de robots móviles, se implementó con éxito el Gradiente de Política Determinista Profunda (DDPG) y se diseñó un algoritmo para problemas de control continuo. Se abordaron las dinámicas complejas del modelo del vehículo y se aprovecharon las ventajas de las redes neuronales profundas por su capacidad de generalización. Se utilizó el aprendizaje por refuerzo para recopilar información y entrenar al agente de manera no supervisada. Se demostró el rendimiento de la política entrenada en la simulación del modelo dinámico de seis grados de libertad con interacciones de fuerza en el suelo. El sistema cumplió con el requisito de mantenerse dentro de la distancia de la mitad del ancho del vehículo respecto a las trayectorias de referencia.