logo móvil
Contáctanos

Aprendizaje por Refuerzo Guiado con Gradiente de Política Determinista Profunda Doble Retrasada para un Sistema de Enlace Flexible Rotatorio

Autores: Saldaña Enderica, Carlos; Llata, José Ramon; Torre-Ferrero, Carlos

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Aprendizaje por Refuerzo Guiado con Gradiente de Política Determinista Profunda Doble Retrasada para un Sistema de Enlace Flexible Rotatorio


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Estudio
Supresión de vibraciones
Seguimiento de trayectorias
Sistemas de enlaces flexibles rotativos
Aprendizaje por refuerzo guiado
Algoritmo TD3

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones


Descripción
Este estudio propone una metodología robusta para la supresión de vibraciones y el seguimiento de trayectorias en sistemas rotativos de enlaces flexibles aprovechando el aprendizaje por refuerzo guiado (GRL). El enfoque integra el algoritmo de gradiente de política determinista profundo retrasado doble (TD3) con un regulador cuadrático lineal (LQR) que actúa como un controlador guía durante el entrenamiento. Los mecanismos de enlace flexible, comunes en robótica avanzada y sistemas aeroespaciales, exhiben un comportamiento oscilatorio que complica el control preciso. Para abordar esto, el sistema se identifica primero utilizando datos experimentales de entrada-salida de una planta virtual de Quanser, generando una representación precisa en el espacio de estados adecuada para el aprendizaje de políticas basado en simulación. La estrategia de control híbrido mejora la eficiencia de la muestra y acelera la convergencia al incorporar trayectorias generadas por LQR durante el entrenamiento de TD3. Internamente, el agente TD3 se beneficia de características arquitectónicas como críticos dobles, actualizaciones de política retrasadas y suavizado de acciones objetivo, que en conjunto mejoran la estabilidad del aprendizaje y reducen el sesgo de sobreestimación. Los resultados comparativos muestran que el controlador TD3 guiado logra un rendimiento superior en términos de amortiguación de vibraciones, respuesta transitoria y robustez, en comparación con enfoques convencionales de LQR, lógica difusa, redes neuronales y GA-LQR. Aunque el controlador fue validado utilizando un gemelo digital de alta fidelidad, aún no se ha implementado en la planta física. El trabajo futuro se centrará en la implementación en tiempo real y en pruebas de robustez estructural bajo incertidumbre de parámetros. En general, esta investigación demuestra que el aprendizaje por refuerzo guiado puede generar políticas estables e interpretables que cumplen con los criterios de control clásico, ofreciendo un marco escalable y generalizable para el control inteligente de sistemas mecánicos flexibles.

Otros recursos que podrían interesarte

Temas Virtualpro