logo móvil
Contáctanos

Optimizando el Control en Cascada de Sistemas Mecatrónicos a través del Aprendizaje por Refuerzo Residual Constrenido

Autores: Staessens, Tom; Lefebvre, Tom; Crevecoeur, Guillaume

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Optimizando el Control en Cascada de Sistemas Mecatrónicos a través del Aprendizaje por Refuerzo Residual Constrenido


Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Estructuras de control en cascada
Aprendizaje por refuerzo residual restringido
Estabilidad
Operación
Estructura del actor
Rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 15

Citaciones: Sin citaciones


Descripción
Las estructuras de control en cascada son prevalentes en sistemas industriales con muchas perturbaciones para obtener un control estable, pero son engorrosas y difíciles de ajustar. En este trabajo, proponemos el aprendizaje por refuerzo residual restringido en cascada (RL), un método intuitivo que permite mejorar el rendimiento de una estructura de control en cascada mientras se mantiene una operación segura en todo momento. Nos inspiramos en el marco de RL residual restringido, en el cual un agente de aprendizaje por refuerzo restringido aprende adaptaciones correctivas a la salida de un controlador base para aumentar la optimalidad. Primero revisamos la interacción entre el agente residual y el controlador base y posteriormente extendemos esto al caso en cascada. Analizamos las diferencias y desafíos que esta estructura presenta y derivamos algunas ideas principales sobre la estabilidad y operación de la arquitectura residual en cascada. A continuación, proponemos una nueva estructura de actor para permitir un aprendizaje eficiente en el entorno en cascada. Mostramos que el algoritmo estándar es subóptimo para su aplicación a estructuras de control en cascada y validamos nuestro método en un simulador de alta fidelidad de un tren motriz de doble motor, resultando en una mejora de rendimiento del 14.7% en promedio, con solo una ligera disminución en el rendimiento durante la fase de entrenamiento. Estudiamos los diferentes principios que constituyen el método y examinamos y validamos su contribución al rendimiento del algoritmo bajo la estructura de control en cascada considerada.

Otros recursos que podrían interesarte

Temas Virtualpro