logo móvil
Contáctanos

Control deslizante híbrido PPO desacoplado de refuerzo para sistemas subactuados: aplicación a carro-polo y acrobata

Autores: Mon, Yi-Jen

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Control deslizante híbrido PPO desacoplado de refuerzo para sistemas subactuados: aplicación a carro-polo y acrobata


Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Sistemas subactuados
Aprendizaje por refuerzo
Desafíos de control
Estabilidad
Cart-Pole
Acrobot

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 16

Citaciones: Sin citaciones


Descripción
Los sistemas subactuados, como el Cart-Pole y el Acrobot, presentan desafíos de control significativos debido a su no linealidad inherente y a la limitada actuación. Los métodos de control tradicionales a menudo tienen dificultades para lograr un rendimiento estable y óptimo en estos escenarios complejos. Este documento presenta un nuevo enfoque de aprendizaje por refuerzo (RL) estable para sistemas subactuados, integrando mecanismos avanzados de exploración-explotación y un marco de optimización de políticas refinado para abordar los problemas de inestabilidad en el control basado en RL. El método propuesto se valida a través de experimentos extensos en dos sistemas subactuados de referencia: el Cart-Pole y el Acrobot. En la tarea de Cart-Pole, el método logra un equilibrio a largo plazo con alta estabilidad, superando a los algoritmos tradicionales de RL como la Optimización de Políticas Proximales (PPO) en la longitud promedio de los episodios y en la robustez ante perturbaciones ambientales. Para el Acrobot, el enfoque permite un impulso confiable y una estabilización casi vertical, pero no puede lograr un control de equilibrio sostenido más allá de intervalos de tiempo cortos debido a la dinámica residual y a las limitaciones de control. Una contribución clave es el desarrollo de una estrategia híbrida de control PPO-modo deslizante que mejora la eficiencia del aprendizaje y la estabilidad para sistemas subactuados.

Otros recursos que podrían interesarte

Temas Virtualpro