Control deslizante híbrido PPO desacoplado de refuerzo para sistemas subactuados: aplicación a carro-polo y acrobata
Autores: Mon, Yi-Jen
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Control deslizante híbrido PPO desacoplado de refuerzo para sistemas subactuados: aplicación a carro-polo y acrobata
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Sistemas subactuados
Aprendizaje por refuerzo
Desafíos de control
Estabilidad
Cart-Pole
Acrobot
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 16
Citaciones: Sin citaciones
Los sistemas subactuados, como el Cart-Pole y el Acrobot, presentan desafíos de control significativos debido a su no linealidad inherente y a la limitada actuación. Los métodos de control tradicionales a menudo tienen dificultades para lograr un rendimiento estable y óptimo en estos escenarios complejos. Este documento presenta un nuevo enfoque de aprendizaje por refuerzo (RL) estable para sistemas subactuados, integrando mecanismos avanzados de exploración-explotación y un marco de optimización de políticas refinado para abordar los problemas de inestabilidad en el control basado en RL. El método propuesto se valida a través de experimentos extensos en dos sistemas subactuados de referencia: el Cart-Pole y el Acrobot. En la tarea de Cart-Pole, el método logra un equilibrio a largo plazo con alta estabilidad, superando a los algoritmos tradicionales de RL como la Optimización de Políticas Proximales (PPO) en la longitud promedio de los episodios y en la robustez ante perturbaciones ambientales. Para el Acrobot, el enfoque permite un impulso confiable y una estabilización casi vertical, pero no puede lograr un control de equilibrio sostenido más allá de intervalos de tiempo cortos debido a la dinámica residual y a las limitaciones de control. Una contribución clave es el desarrollo de una estrategia híbrida de control PPO-modo deslizante que mejora la eficiencia del aprendizaje y la estabilidad para sistemas subactuados.
Descripción
Los sistemas subactuados, como el Cart-Pole y el Acrobot, presentan desafíos de control significativos debido a su no linealidad inherente y a la limitada actuación. Los métodos de control tradicionales a menudo tienen dificultades para lograr un rendimiento estable y óptimo en estos escenarios complejos. Este documento presenta un nuevo enfoque de aprendizaje por refuerzo (RL) estable para sistemas subactuados, integrando mecanismos avanzados de exploración-explotación y un marco de optimización de políticas refinado para abordar los problemas de inestabilidad en el control basado en RL. El método propuesto se valida a través de experimentos extensos en dos sistemas subactuados de referencia: el Cart-Pole y el Acrobot. En la tarea de Cart-Pole, el método logra un equilibrio a largo plazo con alta estabilidad, superando a los algoritmos tradicionales de RL como la Optimización de Políticas Proximales (PPO) en la longitud promedio de los episodios y en la robustez ante perturbaciones ambientales. Para el Acrobot, el enfoque permite un impulso confiable y una estabilización casi vertical, pero no puede lograr un control de equilibrio sostenido más allá de intervalos de tiempo cortos debido a la dinámica residual y a las limitaciones de control. Una contribución clave es el desarrollo de una estrategia híbrida de control PPO-modo deslizante que mejora la eficiencia del aprendizaje y la estabilidad para sistemas subactuados.