Control deslizante híbrido PPO desacoplado de refuerzo para sistemas subactuados: aplicación a carro-polo y acrobata

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Control deslizante híbrido PPO desacoplado de refuerzo para sistemas subactuados: aplicación a carro-polo y acrobata

Autores: Mon, Yi-Jen

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Control deslizante híbrido PPO desacoplado de refuerzo para sistemas subactuados: aplicación a carro-polo y acrobata

Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Sistemas subactuados

Aprendizaje por refuerzo

Desafíos de control

Estabilidad

Cart-Pole

Acrobot

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 16

Citaciones: Sin citaciones

Los sistemas subactuados, como el Cart-Pole y el Acrobot, presentan desafíos de control significativos debido a su no linealidad inherente y a la limitada actuación. Los métodos de control tradicionales a menudo tienen dificultades para lograr un rendimiento estable y óptimo en estos escenarios complejos. Este documento presenta un nuevo enfoque de aprendizaje por refuerzo (RL) estable para sistemas subactuados, integrando mecanismos avanzados de exploración-explotación y un marco de optimización de políticas refinado para abordar los problemas de inestabilidad en el control basado en RL. El método propuesto se valida a través de experimentos extensos en dos sistemas subactuados de referencia: el Cart-Pole y el Acrobot. En la tarea de Cart-Pole, el método logra un equilibrio a largo plazo con alta estabilidad, superando a los algoritmos tradicionales de RL como la Optimización de Políticas Proximales (PPO) en la longitud promedio de los episodios y en la robustez ante perturbaciones ambientales. Para el Acrobot, el enfoque permite un impulso confiable y una estabilización casi vertical, pero no puede lograr un control de equilibrio sostenido más allá de intervalos de tiempo cortos debido a la dinámica residual y a las limitaciones de control. Una contribución clave es el desarrollo de una estrategia híbrida de control PPO-modo deslizante que mejora la eficiencia del aprendizaje y la estabilidad para sistemas subactuados.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro