logo móvil
Contáctanos

Aprendizaje por refuerzo físico con error de diferencia temporal integral para robots con restricciones

Autores: Pantoja-Garcia, Luis; Parra-Vega, Vicente; Garcia-Rodriguez, Rodolfo

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Aprendizaje por refuerzo físico con error de diferencia temporal integral para robots con restricciones


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo
Red neuronal
Sistemas físicos
Análisis de estabilidad
Manipuladores robóticos
Robots humanoides

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
El paradigma del aprendizaje por refuerzo (RL) se refiere a agentes que aprenden de manera iterativa a través de interacciones continuas con su entorno. Sin embargo, cuando la función de valor es desconocida, se utiliza una red neuronal, que generalmente se codifica en una ecuación de diferencia temporal desconocida. Cuando se implementa RL en sistemas físicos, se requieren análisis explícitos de convergencia y estabilidad para garantizar las operaciones en el peor de los casos para cualquier prueba, incluso cuando las condiciones iniciales se establecen en cero. En este artículo, el RL físico (p-RL) se refiere a la aplicación de RL en sistemas dinámicos que interactúan con sus entornos, como manipuladores robóticos en tareas de contacto y robots humanoides en tareas de cooperación o interacción. Desafortunadamente, la mayoría de los esquemas de p-RL carecen de propiedades de estabilidad, lo que puede ser incluso peligroso para aplicaciones robóticas específicas, como aquellas que involucran tareas de contacto (constricción) o tareas de interacción. Considerando un robot DAE2 desconocido y perturbado, en este artículo se desarrolla un enfoque de p-RL para garantizar la estabilidad robusta a lo largo de un actor-crítico adaptativo en tiempo continuo, con convergencia exponencial local del error de seguimiento de fuerza-posicion. Los nuevos mecanismos adaptativos conducen a la robustez, mientras que un modo deslizante integral refuerza el seguimiento. Se presentan y discuten simulaciones para mostrar la efectividad de nuestra propuesta, y se abordan algunas observaciones finales sobre los aspectos estructurales.

Otros recursos que podrían interesarte

Temas Virtualpro