logo móvil
Contáctanos

Control de Aprendizaje por Refuerzo de Sistema de Servohidráulico Basado en el Algoritmo TD3

Autores: Yuan, Xiaoming; Wang, Yu; Zhang, Ruicong; Gao, Qiang; Zhou, Zhuangding; Zhou, Rulin; Yin, Fengyuan

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Control de Aprendizaje por Refuerzo de Sistema de Servohidráulico Basado en el Algoritmo TD3


Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Características
No lineales
Variables en el tiempo
Acoplamiento de parámetros
Sistema de servo hidráulico
Aprendizaje por refuerzo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 17

Citaciones: Sin citaciones


Descripción
Este documento tiene como objetivo las características de un sistema servo hidráulico no lineal, variable en el tiempo y con acoplamiento de parámetros. Se ha diseñado un método de control inteligente que utiliza autoaprendizaje sin un modelo o conocimiento previo, con el fin de lograr ciertos efectos de control. La cantidad de control se puede obtener en el momento actual a través de la iteración continua de una red de valor de estrategia, y se puede realizar la autoajuste en línea de los parámetros. Tomando el sistema servo hidráulico como objeto experimental, se utilizó un gradiente de política determinista profundo con doble retardo (TD3) para reforzar el aprendizaje del sistema. Además, se comparó la configuración de parámetros utilizando un gradiente de política determinista profundo (DDPG) y un lineal-cuadrático-gaussiano (LQG) basado en la función objetivo lineal cuadrática gaussiana. Para compilar el algoritmo de aprendizaje por refuerzo y desplegarlo en el controlador de la plataforma de prueba para su evaluación, utilizamos la máquina objetivo prototipo Speedgoat como controlador para construir la plataforma de prueba de control de prototipo rápido. Se utilizaron MATLAB/Coder y arquitectura de dispositivo unificado de computación (CUDA) para generar una S-function. Los resultados muestran que, en comparación con otros métodos de ajuste de parámetros, el algoritmo propuesto puede optimizar eficazmente los parámetros del controlador y mejorar la respuesta dinámica del sistema al rastrear señales.

Otros recursos que podrían interesarte

Temas Virtualpro