Aprendizaje por Refuerzo Guiado con Gradiente de Política Determinista Profunda Doble Retrasada para un Sistema de Enlace Flexible Rotatorio
Autores: Saldaña Enderica, Carlos; Llata, José Ramon; Torre-Ferrero, Carlos
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje por Refuerzo Guiado con Gradiente de Política Determinista Profunda Doble Retrasada para un Sistema de Enlace Flexible Rotatorio
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Estudio
Supresión de vibraciones
Seguimiento de trayectorias
Sistemas de enlaces flexibles rotativos
Aprendizaje por refuerzo guiado
Algoritmo TD3
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
Este estudio propone una metodología robusta para la supresión de vibraciones y el seguimiento de trayectorias en sistemas rotativos de enlaces flexibles aprovechando el aprendizaje por refuerzo guiado (GRL). El enfoque integra el algoritmo de gradiente de política determinista profundo retrasado doble (TD3) con un regulador cuadrático lineal (LQR) que actúa como un controlador guía durante el entrenamiento. Los mecanismos de enlace flexible, comunes en robótica avanzada y sistemas aeroespaciales, exhiben un comportamiento oscilatorio que complica el control preciso. Para abordar esto, el sistema se identifica primero utilizando datos experimentales de entrada-salida de una planta virtual de Quanser, generando una representación precisa en el espacio de estados adecuada para el aprendizaje de políticas basado en simulación. La estrategia de control híbrido mejora la eficiencia de la muestra y acelera la convergencia al incorporar trayectorias generadas por LQR durante el entrenamiento de TD3. Internamente, el agente TD3 se beneficia de características arquitectónicas como críticos dobles, actualizaciones de política retrasadas y suavizado de acciones objetivo, que en conjunto mejoran la estabilidad del aprendizaje y reducen el sesgo de sobreestimación. Los resultados comparativos muestran que el controlador TD3 guiado logra un rendimiento superior en términos de amortiguación de vibraciones, respuesta transitoria y robustez, en comparación con enfoques convencionales de LQR, lógica difusa, redes neuronales y GA-LQR. Aunque el controlador fue validado utilizando un gemelo digital de alta fidelidad, aún no se ha implementado en la planta física. El trabajo futuro se centrará en la implementación en tiempo real y en pruebas de robustez estructural bajo incertidumbre de parámetros. En general, esta investigación demuestra que el aprendizaje por refuerzo guiado puede generar políticas estables e interpretables que cumplen con los criterios de control clásico, ofreciendo un marco escalable y generalizable para el control inteligente de sistemas mecánicos flexibles.
Descripción
Este estudio propone una metodología robusta para la supresión de vibraciones y el seguimiento de trayectorias en sistemas rotativos de enlaces flexibles aprovechando el aprendizaje por refuerzo guiado (GRL). El enfoque integra el algoritmo de gradiente de política determinista profundo retrasado doble (TD3) con un regulador cuadrático lineal (LQR) que actúa como un controlador guía durante el entrenamiento. Los mecanismos de enlace flexible, comunes en robótica avanzada y sistemas aeroespaciales, exhiben un comportamiento oscilatorio que complica el control preciso. Para abordar esto, el sistema se identifica primero utilizando datos experimentales de entrada-salida de una planta virtual de Quanser, generando una representación precisa en el espacio de estados adecuada para el aprendizaje de políticas basado en simulación. La estrategia de control híbrido mejora la eficiencia de la muestra y acelera la convergencia al incorporar trayectorias generadas por LQR durante el entrenamiento de TD3. Internamente, el agente TD3 se beneficia de características arquitectónicas como críticos dobles, actualizaciones de política retrasadas y suavizado de acciones objetivo, que en conjunto mejoran la estabilidad del aprendizaje y reducen el sesgo de sobreestimación. Los resultados comparativos muestran que el controlador TD3 guiado logra un rendimiento superior en términos de amortiguación de vibraciones, respuesta transitoria y robustez, en comparación con enfoques convencionales de LQR, lógica difusa, redes neuronales y GA-LQR. Aunque el controlador fue validado utilizando un gemelo digital de alta fidelidad, aún no se ha implementado en la planta física. El trabajo futuro se centrará en la implementación en tiempo real y en pruebas de robustez estructural bajo incertidumbre de parámetros. En general, esta investigación demuestra que el aprendizaje por refuerzo guiado puede generar políticas estables e interpretables que cumplen con los criterios de control clásico, ofreciendo un marco escalable y generalizable para el control inteligente de sistemas mecánicos flexibles.