Aprendizaje por refuerzo físico con error de diferencia temporal integral para robots con restricciones
Autores: Pantoja-Garcia, Luis; Parra-Vega, Vicente; Garcia-Rodriguez, Rodolfo
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje por refuerzo físico con error de diferencia temporal integral para robots con restricciones
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje por refuerzo
Red neuronal
Sistemas físicos
Análisis de estabilidad
Manipuladores robóticos
Robots humanoides
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
El paradigma del aprendizaje por refuerzo (RL) se refiere a agentes que aprenden de manera iterativa a través de interacciones continuas con su entorno. Sin embargo, cuando la función de valor es desconocida, se utiliza una red neuronal, que generalmente se codifica en una ecuación de diferencia temporal desconocida. Cuando se implementa RL en sistemas físicos, se requieren análisis explícitos de convergencia y estabilidad para garantizar las operaciones en el peor de los casos para cualquier prueba, incluso cuando las condiciones iniciales se establecen en cero. En este artículo, el RL físico (p-RL) se refiere a la aplicación de RL en sistemas dinámicos que interactúan con sus entornos, como manipuladores robóticos en tareas de contacto y robots humanoides en tareas de cooperación o interacción. Desafortunadamente, la mayoría de los esquemas de p-RL carecen de propiedades de estabilidad, lo que puede ser incluso peligroso para aplicaciones robóticas específicas, como aquellas que involucran tareas de contacto (constricción) o tareas de interacción. Considerando un robot DAE2 desconocido y perturbado, en este artículo se desarrolla un enfoque de p-RL para garantizar la estabilidad robusta a lo largo de un actor-crítico adaptativo en tiempo continuo, con convergencia exponencial local del error de seguimiento de fuerza-posicion. Los nuevos mecanismos adaptativos conducen a la robustez, mientras que un modo deslizante integral refuerza el seguimiento. Se presentan y discuten simulaciones para mostrar la efectividad de nuestra propuesta, y se abordan algunas observaciones finales sobre los aspectos estructurales.
Descripción
El paradigma del aprendizaje por refuerzo (RL) se refiere a agentes que aprenden de manera iterativa a través de interacciones continuas con su entorno. Sin embargo, cuando la función de valor es desconocida, se utiliza una red neuronal, que generalmente se codifica en una ecuación de diferencia temporal desconocida. Cuando se implementa RL en sistemas físicos, se requieren análisis explícitos de convergencia y estabilidad para garantizar las operaciones en el peor de los casos para cualquier prueba, incluso cuando las condiciones iniciales se establecen en cero. En este artículo, el RL físico (p-RL) se refiere a la aplicación de RL en sistemas dinámicos que interactúan con sus entornos, como manipuladores robóticos en tareas de contacto y robots humanoides en tareas de cooperación o interacción. Desafortunadamente, la mayoría de los esquemas de p-RL carecen de propiedades de estabilidad, lo que puede ser incluso peligroso para aplicaciones robóticas específicas, como aquellas que involucran tareas de contacto (constricción) o tareas de interacción. Considerando un robot DAE2 desconocido y perturbado, en este artículo se desarrolla un enfoque de p-RL para garantizar la estabilidad robusta a lo largo de un actor-crítico adaptativo en tiempo continuo, con convergencia exponencial local del error de seguimiento de fuerza-posicion. Los nuevos mecanismos adaptativos conducen a la robustez, mientras que un modo deslizante integral refuerza el seguimiento. Se presentan y discuten simulaciones para mostrar la efectividad de nuestra propuesta, y se abordan algunas observaciones finales sobre los aspectos estructurales.