logo móvil
Contáctanos

Un nuevo aprendizaje por refuerzo motor actor-crítico para robots blandos continuos

Autores: Pantoja-Garcia, Luis; Parra-Vega, Vicente; Garcia-Rodriguez, Rodolfo; Vázquez-García, Carlos Ernesto

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un nuevo aprendizaje por refuerzo motor actor-crítico para robots blandos continuos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo
Robot blando
Basado en pasividad
Controlador de red neuronal
Esquema actor-crítico
Tareas de seguimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones


Descripción
El aprendizaje por refuerzo (RL) se explora para el control motor de un novedoso robot blando impulsado por neumáticos, modelado a partir de medios continuos con una densidad variable. Este modelo cumple con la dinámica lagrangiana en forma cerrada, que satisface la propiedad estructural fundamental de pasividad, entre otras. Entonces, surge la pregunta de cómo sintetizar un modelo de RL basado en la pasividad para controlar la dinámica desconocida del robot blando continuo y aprovechar ventajosamente sus propiedades de energía de entrada-salida a lo largo de un controlador de red neuronal basado en recompensas. Así, proponemos un esquema Actor-Crítico en tiempo continuo para tareas de seguimiento del robot blando 3D continuo sujeto a perturbaciones de Lipschitz. Una diferencia temporal basada en recompensas conduce al aprendizaje con un novedoso mecanismo adaptativo discontinuo de pesos neuronales del Crítico. Finalmente, la recompensa y la integral de la aproximación del error de Bellman refuerzan el mecanismo adaptativo de los pesos neuronales del Actor. La estabilidad en lazo cerrado está garantizada en el sentido de Lyapunov, lo que conduce a la convergencia exponencial local de los errores de seguimiento basados en modos deslizantes integrales. Notablemente, se asume que las dinámicas son desconocidas, sin embargo, el control es continuo y robusto. Un estudio de simulación representativo muestra la efectividad de nuestra propuesta para tareas de seguimiento.

Otros recursos que podrían interesarte

Temas Virtualpro