Simulación a la realidad de aprendizaje por refuerzo para un péndulo doble invertido rotativo basado en un modelo matemático
Autores: Ju, Doyoon; Lee, Jongbeom; Lee, Young Sam
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Simulación a la realidad de aprendizaje por refuerzo para un péndulo doble invertido rotativo basado en un modelo matemático
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Propone
Estrategia de control de transición
Aprendizaje por refuerzo de simulación a realidad
Modelado matemático
Estimación de parámetros
Críticos de Cuantiles Truncados
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Este documento propone una estrategia de control de transición para un sistema de péndulo doble invertido rotativo (RDIP) utilizando un controlador de aprendizaje por refuerzo (RL) de simulación a real, basado en modelado matemático y estimación de parámetros. Se utilizan datos de sensores de alta resolución para estimar parámetros físicos clave, garantizando la fidelidad del modelo para la simulación. El modelo matemático resultante sirve como entorno de entrenamiento en el cual el agente de RL aprende a realizar transiciones entre varias condiciones iniciales y configuraciones de equilibrio objetivo. El proceso de entrenamiento adopta el algoritmo Truncated Quantile Critics (TQC), con una función de recompensa diseñada específicamente para reflejar las características no lineales del sistema. La política aprendida se implementa directamente en hardware físico sin ajustes o calibraciones adicionales, y el controlador basado en TQC logra con éxito las cuatro transiciones de equilibrio. Además, el controlador muestra propiedades robustas de recuperación ante perturbaciones externas, demostrando su efectividad como un enfoque de control de simulación a real confiable para sistemas no lineales de alta dimensionalidad.
Descripción
Este documento propone una estrategia de control de transición para un sistema de péndulo doble invertido rotativo (RDIP) utilizando un controlador de aprendizaje por refuerzo (RL) de simulación a real, basado en modelado matemático y estimación de parámetros. Se utilizan datos de sensores de alta resolución para estimar parámetros físicos clave, garantizando la fidelidad del modelo para la simulación. El modelo matemático resultante sirve como entorno de entrenamiento en el cual el agente de RL aprende a realizar transiciones entre varias condiciones iniciales y configuraciones de equilibrio objetivo. El proceso de entrenamiento adopta el algoritmo Truncated Quantile Critics (TQC), con una función de recompensa diseñada específicamente para reflejar las características no lineales del sistema. La política aprendida se implementa directamente en hardware físico sin ajustes o calibraciones adicionales, y el controlador basado en TQC logra con éxito las cuatro transiciones de equilibrio. Además, el controlador muestra propiedades robustas de recuperación ante perturbaciones externas, demostrando su efectividad como un enfoque de control de simulación a real confiable para sistemas no lineales de alta dimensionalidad.