logo móvil
Contáctanos

Modelado en línea de aprendizaje por refuerzo difuso tridimensional para sistemas de parámetros distribuidos no lineales

Autores: Zhang, Xianxia; Yan, Runbin; Zhou, Gang; Wang, Lufeng; Wang, Bing

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Modelado en línea de aprendizaje por refuerzo difuso tridimensional para sistemas de parámetros distribuidos no lineales


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Sistemas de parámetros distribuidos
Modelo en línea
Aprendizaje por refuerzo
Modelo difuso 3D
Marco de actor crítico
Objetivo TD (0)

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
Los sistemas de parámetros distribuidos (DPS) aparecen con frecuencia en los procesos de fabricación industrial, con características complejas como el acoplamiento tiempo-espacio, la no linealidad, la dimensión infinita, la incertidumbre, etc., lo cual supone un gran desafío para la modelización del sistema. En la actualidad, la mayoría de los métodos de modelización de DPS son offline. Cuando los parámetros internos o el entorno externo de un DPS cambian, el modelo offline no puede representar con precisión los atributos dinámicos del sistema real. Es muy importante establecer un modelo online para DPS que refleje con precisión la dinámica en tiempo real del sistema. En este documento, la idea del aprendizaje por refuerzo se integra de forma creativa en el modelo difuso tridimensional (3D) y se propone un método de modelización difusa tridimensional basado en el aprendizaje por refuerzo. El agente mejora la estrategia interactuando continuamente con el entorno, de modo que el modelo difuso 3D puede establecer adaptativamente el modelo online desde cero. Específicamente, este documento combina el algoritmo de aprendizaje por refuerzo de gradiente de estrategia determinista basado en un marco de actor crítico con un sistema difuso 3D. La función de actor y la función de crítico están representadas por dos sistemas difusos 3D y se actualizan alternativamente. La función de crítico utiliza un objetivo TD (0) y se actualiza mediante el método de semigradiente; la función de actor se actualiza utilizando la regla de derivación en cadena sobre la función de valor del comportamiento y la función de actor es el modelo online de DPS establecido. Dado que la modelización de DPS es un problema continuo, este documento propone un objetivo TD (0) basado en la recompensa promedio, que puede realizar efectivamente la modelización online. La metodología sugerida se implementa en un sistema de reactor de deposición química de vapor térmico rápido de tres zonas y los resultados de la simulación demuestran la eficacia de la metodología.

Otros recursos que podrían interesarte

Temas Virtualpro