Diseño y Comparación de Controladores PID Variables en el Tiempo Basados en Aprendizaje por Refuerzo con Acciones Programadas por Ganancia
Autores: Yeh, Yi-Liang; Yang, Po-Kai
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Diseño y Comparación de Controladores PID Variables en el Tiempo Basados en Aprendizaje por Refuerzo con Acciones Programadas por Ganancia
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Aprendizaje por refuerzo
Parámetros
Controlador proporcional integral derivativo
Tabla Q
Acciones programadas por ganancia
Experimento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
Este documento presenta métodos innovadores de aprendizaje por refuerzo para ajustar automáticamente los parámetros de un controlador proporcional-integral-derivativo. Convencionalmente, la alta dimensión de la tabla Q es una desventaja principal al implementar un algoritmo de aprendizaje por refuerzo. Para superar este obstáculo, se utiliza en este documento la idea subyacente al problema del bandido multi-brazo. Además, se presentan acciones programadas por ganancia para ajustar los algoritmos y mejorar el comportamiento general del sistema; por lo tanto, los controladores propuestos cumplen con los múltiples requisitos de rendimiento. Se realizó un experimento para el escenario actuado por piezoeléctrico para ilustrar la efectividad de los diseños de control propuestos en relación con los algoritmos competidores.
Descripción
Este documento presenta métodos innovadores de aprendizaje por refuerzo para ajustar automáticamente los parámetros de un controlador proporcional-integral-derivativo. Convencionalmente, la alta dimensión de la tabla Q es una desventaja principal al implementar un algoritmo de aprendizaje por refuerzo. Para superar este obstáculo, se utiliza en este documento la idea subyacente al problema del bandido multi-brazo. Además, se presentan acciones programadas por ganancia para ajustar los algoritmos y mejorar el comportamiento general del sistema; por lo tanto, los controladores propuestos cumplen con los múltiples requisitos de rendimiento. Se realizó un experimento para el escenario actuado por piezoeléctrico para ilustrar la efectividad de los diseños de control propuestos en relación con los algoritmos competidores.