Un nuevo aprendizaje por refuerzo motor actor-crítico para robots blandos continuos
Autores: Pantoja-Garcia, Luis; Parra-Vega, Vicente; Garcia-Rodriguez, Rodolfo; Vázquez-García, Carlos Ernesto
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un nuevo aprendizaje por refuerzo motor actor-crítico para robots blandos continuos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje por refuerzo
Robot blando
Basado en pasividad
Controlador de red neuronal
Esquema actor-crítico
Tareas de seguimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
El aprendizaje por refuerzo (RL) se explora para el control motor de un novedoso robot blando impulsado por neumáticos, modelado a partir de medios continuos con una densidad variable. Este modelo cumple con la dinámica lagrangiana en forma cerrada, que satisface la propiedad estructural fundamental de pasividad, entre otras. Entonces, surge la pregunta de cómo sintetizar un modelo de RL basado en la pasividad para controlar la dinámica desconocida del robot blando continuo y aprovechar ventajosamente sus propiedades de energía de entrada-salida a lo largo de un controlador de red neuronal basado en recompensas. Así, proponemos un esquema Actor-Crítico en tiempo continuo para tareas de seguimiento del robot blando 3D continuo sujeto a perturbaciones de Lipschitz. Una diferencia temporal basada en recompensas conduce al aprendizaje con un novedoso mecanismo adaptativo discontinuo de pesos neuronales del Crítico. Finalmente, la recompensa y la integral de la aproximación del error de Bellman refuerzan el mecanismo adaptativo de los pesos neuronales del Actor. La estabilidad en lazo cerrado está garantizada en el sentido de Lyapunov, lo que conduce a la convergencia exponencial local de los errores de seguimiento basados en modos deslizantes integrales. Notablemente, se asume que las dinámicas son desconocidas, sin embargo, el control es continuo y robusto. Un estudio de simulación representativo muestra la efectividad de nuestra propuesta para tareas de seguimiento.
Descripción
El aprendizaje por refuerzo (RL) se explora para el control motor de un novedoso robot blando impulsado por neumáticos, modelado a partir de medios continuos con una densidad variable. Este modelo cumple con la dinámica lagrangiana en forma cerrada, que satisface la propiedad estructural fundamental de pasividad, entre otras. Entonces, surge la pregunta de cómo sintetizar un modelo de RL basado en la pasividad para controlar la dinámica desconocida del robot blando continuo y aprovechar ventajosamente sus propiedades de energía de entrada-salida a lo largo de un controlador de red neuronal basado en recompensas. Así, proponemos un esquema Actor-Crítico en tiempo continuo para tareas de seguimiento del robot blando 3D continuo sujeto a perturbaciones de Lipschitz. Una diferencia temporal basada en recompensas conduce al aprendizaje con un novedoso mecanismo adaptativo discontinuo de pesos neuronales del Crítico. Finalmente, la recompensa y la integral de la aproximación del error de Bellman refuerzan el mecanismo adaptativo de los pesos neuronales del Actor. La estabilidad en lazo cerrado está garantizada en el sentido de Lyapunov, lo que conduce a la convergencia exponencial local de los errores de seguimiento basados en modos deslizantes integrales. Notablemente, se asume que las dinámicas son desconocidas, sin embargo, el control es continuo y robusto. Un estudio de simulación representativo muestra la efectividad de nuestra propuesta para tareas de seguimiento.