Aprendizaje por Refuerzo Profundo para Controlador Predictivo Basado en el Modelo de Cuerpo Rígido Único Perturbado de Robots Bípodes
Autores: Hou, Landong; Li, Bin; Liu, Weilong; Xu, Yiming; Yang, Shuhui; Rong, Xuewen
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendizaje por Refuerzo Profundo para Controlador Predictivo Basado en el Modelo de Cuerpo Rígido Único Perturbado de Robots Bípodes
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Papel
Pierna oscilante
Aprendizaje profundo por refuerzo
Control predictivo de modelos
Perturbaciones
Optimización de políticas proximales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
Este documento modifica el modelo de cuerpo rígido único (SRB) y considera la pierna oscilante como las perturbaciones a la aceleración del centroide y la aceleración rotacional del modelo SRB. Este documento propone un control predictivo basado en aprendizaje por refuerzo profundo (DRL) para resistir las perturbaciones de la pierna oscilante. El DRL predice las perturbaciones de la pierna oscilante y luego el MPC proporciona las fuerzas de reacción del suelo óptimas de acuerdo con las perturbaciones predichas. Utilizamos el algoritmo de optimización de políticas proximales (PPO) entre los métodos de DRL, ya que es un algoritmo muy estable y ampliamente aplicable. Es un algoritmo en política basado en el marco actor-crítico. Los resultados de la simulación muestran que el modelo SRB mejorado y el método MPC basado en PPO pueden predecir con precisión las perturbaciones de la pierna oscilante al modelo SRB y resistir la perturbación, haciendo que la locomoción sea más robusta.
Descripción
Este documento modifica el modelo de cuerpo rígido único (SRB) y considera la pierna oscilante como las perturbaciones a la aceleración del centroide y la aceleración rotacional del modelo SRB. Este documento propone un control predictivo basado en aprendizaje por refuerzo profundo (DRL) para resistir las perturbaciones de la pierna oscilante. El DRL predice las perturbaciones de la pierna oscilante y luego el MPC proporciona las fuerzas de reacción del suelo óptimas de acuerdo con las perturbaciones predichas. Utilizamos el algoritmo de optimización de políticas proximales (PPO) entre los métodos de DRL, ya que es un algoritmo muy estable y ampliamente aplicable. Es un algoritmo en política basado en el marco actor-crítico. Los resultados de la simulación muestran que el modelo SRB mejorado y el método MPC basado en PPO pueden predecir con precisión las perturbaciones de la pierna oscilante al modelo SRB y resistir la perturbación, haciendo que la locomoción sea más robusta.