Horizonte Predictivo No Lineal Adaptativo Usando Aprendizaje por Refuerzo Profundo para la Planificación Óptima de Trayectorias
Autores: Al Younes, Younes; Barczyk, Martin
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Horizonte Predictivo No Lineal Adaptativo Usando Aprendizaje por Refuerzo Profundo para la Planificación Óptima de Trayectorias
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Planificación de trayectorias adaptativas
Aprendizaje profundo por refuerzo
Horizonte de predicción de modelos no lineales
Vehículo autónomo
Algoritmos actor-crítico
Dron aéreo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento presenta un enfoque de planificación de trayectorias adaptativo para sistemas dinámicos no lineales basado en el aprendizaje por refuerzo profundo (DRL). Esta metodología se aplica al enfoque de planificación de trayectorias basado en optimización recientemente publicado por los autores, denominado horizonte predictivo de modelo no lineal (NMPH). El diseño resultante, que llamamos "NMPH adaptativo", genera trayectorias óptimas para un vehículo autónomo basadas en los estados del sistema y su entorno. Esto se logra ajustando los parámetros del NMPH en línea utilizando dos algoritmos diferentes basados en actor-crítico de DRL, el gradiente de política determinista profundo (DDPG) y el actor-crítico suave (SAC). Ambas variantes de NMPH adaptativo se entrenan y evalúan en un dron aéreo dentro de un entorno de simulación de alta fidelidad. Los resultados demuestran las curvas de aprendizaje, la complejidad de muestra y la estabilidad del esquema de adaptación basado en DRL y muestran el rendimiento superior del NMPH adaptativo en comparación con nuestros diseños anteriores.
Descripción
Este documento presenta un enfoque de planificación de trayectorias adaptativo para sistemas dinámicos no lineales basado en el aprendizaje por refuerzo profundo (DRL). Esta metodología se aplica al enfoque de planificación de trayectorias basado en optimización recientemente publicado por los autores, denominado horizonte predictivo de modelo no lineal (NMPH). El diseño resultante, que llamamos "NMPH adaptativo", genera trayectorias óptimas para un vehículo autónomo basadas en los estados del sistema y su entorno. Esto se logra ajustando los parámetros del NMPH en línea utilizando dos algoritmos diferentes basados en actor-crítico de DRL, el gradiente de política determinista profundo (DDPG) y el actor-crítico suave (SAC). Ambas variantes de NMPH adaptativo se entrenan y evalúan en un dron aéreo dentro de un entorno de simulación de alta fidelidad. Los resultados demuestran las curvas de aprendizaje, la complejidad de muestra y la estabilidad del esquema de adaptación basado en DRL y muestran el rendimiento superior del NMPH adaptativo en comparación con nuestros diseños anteriores.