Control de Aprendizaje por Refuerzo de Sistema de Servohidráulico Basado en el Algoritmo TD3

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Control de Aprendizaje por Refuerzo de Sistema de Servohidráulico Basado en el Algoritmo TD3

Autores: Yuan, Xiaoming; Wang, Yu; Zhang, Ruicong; Gao, Qiang; Zhou, Zhuangding; Zhou, Rulin; Yin, Fengyuan

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Control de Aprendizaje por Refuerzo de Sistema de Servohidráulico Basado en el Algoritmo TD3

Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Características

No lineales

Variables en el tiempo

Acoplamiento de parámetros

Sistema de servo hidráulico

Aprendizaje por refuerzo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 17

Citaciones: Sin citaciones

Este documento tiene como objetivo las características de un sistema servo hidráulico no lineal, variable en el tiempo y con acoplamiento de parámetros. Se ha diseñado un método de control inteligente que utiliza autoaprendizaje sin un modelo o conocimiento previo, con el fin de lograr ciertos efectos de control. La cantidad de control se puede obtener en el momento actual a través de la iteración continua de una red de valor de estrategia, y se puede realizar la autoajuste en línea de los parámetros. Tomando el sistema servo hidráulico como objeto experimental, se utilizó un gradiente de política determinista profundo con doble retardo (TD3) para reforzar el aprendizaje del sistema. Además, se comparó la configuración de parámetros utilizando un gradiente de política determinista profundo (DDPG) y un lineal-cuadrático-gaussiano (LQG) basado en la función objetivo lineal cuadrática gaussiana. Para compilar el algoritmo de aprendizaje por refuerzo y desplegarlo en el controlador de la plataforma de prueba para su evaluación, utilizamos la máquina objetivo prototipo Speedgoat como controlador para construir la plataforma de prueba de control de prototipo rápido. Se utilizaron MATLAB/Coder y arquitectura de dispositivo unificado de computación (CUDA) para generar una S-function. Los resultados muestran que, en comparación con otros métodos de ajuste de parámetros, el algoritmo propuesto puede optimizar eficazmente los parámetros del controlador y mejorar la respuesta dinámica del sistema al rastrear señales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro