Aprendizaje por Refuerzo Guiado con Gradiente de Política Determinista Profunda Doble Retrasada para un Sistema de Enlace Flexible Rotatorio

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje por Refuerzo Guiado con Gradiente de Política Determinista Profunda Doble Retrasada para un Sistema de Enlace Flexible Rotatorio

Autores: Saldaña Enderica, Carlos; Llata, José Ramon; Torre-Ferrero, Carlos

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Aprendizaje por Refuerzo Guiado con Gradiente de Política Determinista Profunda Doble Retrasada para un Sistema de Enlace Flexible Rotatorio

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Estudio

Supresión de vibraciones

Seguimiento de trayectorias

Sistemas de enlaces flexibles rotativos

Aprendizaje por refuerzo guiado

Algoritmo TD3

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones

Este estudio propone una metodología robusta para la supresión de vibraciones y el seguimiento de trayectorias en sistemas rotativos de enlaces flexibles aprovechando el aprendizaje por refuerzo guiado (GRL). El enfoque integra el algoritmo de gradiente de política determinista profundo retrasado doble (TD3) con un regulador cuadrático lineal (LQR) que actúa como un controlador guía durante el entrenamiento. Los mecanismos de enlace flexible, comunes en robótica avanzada y sistemas aeroespaciales, exhiben un comportamiento oscilatorio que complica el control preciso. Para abordar esto, el sistema se identifica primero utilizando datos experimentales de entrada-salida de una planta virtual de Quanser, generando una representación precisa en el espacio de estados adecuada para el aprendizaje de políticas basado en simulación. La estrategia de control híbrido mejora la eficiencia de la muestra y acelera la convergencia al incorporar trayectorias generadas por LQR durante el entrenamiento de TD3. Internamente, el agente TD3 se beneficia de características arquitectónicas como críticos dobles, actualizaciones de política retrasadas y suavizado de acciones objetivo, que en conjunto mejoran la estabilidad del aprendizaje y reducen el sesgo de sobreestimación. Los resultados comparativos muestran que el controlador TD3 guiado logra un rendimiento superior en términos de amortiguación de vibraciones, respuesta transitoria y robustez, en comparación con enfoques convencionales de LQR, lógica difusa, redes neuronales y GA-LQR. Aunque el controlador fue validado utilizando un gemelo digital de alta fidelidad, aún no se ha implementado en la planta física. El trabajo futuro se centrará en la implementación en tiempo real y en pruebas de robustez estructural bajo incertidumbre de parámetros. En general, esta investigación demuestra que el aprendizaje por refuerzo guiado puede generar políticas estables e interpretables que cumplen con los criterios de control clásico, ofreciendo un marco escalable y generalizable para el control inteligente de sistemas mecánicos flexibles.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro