Un nuevo aprendizaje por refuerzo motor actor-crítico para robots blandos continuos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un nuevo aprendizaje por refuerzo motor actor-crítico para robots blandos continuos

Autores: Pantoja-Garcia, Luis; Parra-Vega, Vicente; Garcia-Rodriguez, Rodolfo; Vázquez-García, Carlos Ernesto

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Un nuevo aprendizaje por refuerzo motor actor-crítico para robots blandos continuos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo

Robot blando

Basado en pasividad

Controlador de red neuronal

Esquema actor-crítico

Tareas de seguimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones

El aprendizaje por refuerzo (RL) se explora para el control motor de un novedoso robot blando impulsado por neumáticos, modelado a partir de medios continuos con una densidad variable. Este modelo cumple con la dinámica lagrangiana en forma cerrada, que satisface la propiedad estructural fundamental de pasividad, entre otras. Entonces, surge la pregunta de cómo sintetizar un modelo de RL basado en la pasividad para controlar la dinámica desconocida del robot blando continuo y aprovechar ventajosamente sus propiedades de energía de entrada-salida a lo largo de un controlador de red neuronal basado en recompensas. Así, proponemos un esquema Actor-Crítico en tiempo continuo para tareas de seguimiento del robot blando 3D continuo sujeto a perturbaciones de Lipschitz. Una diferencia temporal basada en recompensas conduce al aprendizaje con un novedoso mecanismo adaptativo discontinuo de pesos neuronales del Crítico. Finalmente, la recompensa y la integral de la aproximación del error de Bellman refuerzan el mecanismo adaptativo de los pesos neuronales del Actor. La estabilidad en lazo cerrado está garantizada en el sentido de Lyapunov, lo que conduce a la convergencia exponencial local de los errores de seguimiento basados en modos deslizantes integrales. Notablemente, se asume que las dinámicas son desconocidas, sin embargo, el control es continuo y robusto. Un estudio de simulación representativo muestra la efectividad de nuestra propuesta para tareas de seguimiento.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro