Aprendizaje por refuerzo físico con error de diferencia temporal integral para robots con restricciones

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje por refuerzo físico con error de diferencia temporal integral para robots con restricciones

Autores: Pantoja-Garcia, Luis; Parra-Vega, Vicente; Garcia-Rodriguez, Rodolfo

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Aprendizaje por refuerzo físico con error de diferencia temporal integral para robots con restricciones

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo

Red neuronal

Sistemas físicos

Análisis de estabilidad

Manipuladores robóticos

Robots humanoides

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones

El paradigma del aprendizaje por refuerzo (RL) se refiere a agentes que aprenden de manera iterativa a través de interacciones continuas con su entorno. Sin embargo, cuando la función de valor es desconocida, se utiliza una red neuronal, que generalmente se codifica en una ecuación de diferencia temporal desconocida. Cuando se implementa RL en sistemas físicos, se requieren análisis explícitos de convergencia y estabilidad para garantizar las operaciones en el peor de los casos para cualquier prueba, incluso cuando las condiciones iniciales se establecen en cero. En este artículo, el RL físico (p-RL) se refiere a la aplicación de RL en sistemas dinámicos que interactúan con sus entornos, como manipuladores robóticos en tareas de contacto y robots humanoides en tareas de cooperación o interacción. Desafortunadamente, la mayoría de los esquemas de p-RL carecen de propiedades de estabilidad, lo que puede ser incluso peligroso para aplicaciones robóticas específicas, como aquellas que involucran tareas de contacto (constricción) o tareas de interacción. Considerando un robot DAE2 desconocido y perturbado, en este artículo se desarrolla un enfoque de p-RL para garantizar la estabilidad robusta a lo largo de un actor-crítico adaptativo en tiempo continuo, con convergencia exponencial local del error de seguimiento de fuerza-posicion. Los nuevos mecanismos adaptativos conducen a la robustez, mientras que un modo deslizante integral refuerza el seguimiento. Se presentan y discuten simulaciones para mostrar la efectividad de nuestra propuesta, y se abordan algunas observaciones finales sobre los aspectos estructurales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro