Modelado en línea de aprendizaje por refuerzo difuso tridimensional para sistemas de parámetros distribuidos no lineales

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Modelado en línea de aprendizaje por refuerzo difuso tridimensional para sistemas de parámetros distribuidos no lineales

Autores: Zhang, Xianxia; Yan, Runbin; Zhou, Gang; Wang, Lufeng; Wang, Bing

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Modelado en línea de aprendizaje por refuerzo difuso tridimensional para sistemas de parámetros distribuidos no lineales

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Sistemas de parámetros distribuidos

Modelo en línea

Aprendizaje por refuerzo

Modelo difuso 3D

Marco de actor crítico

Objetivo TD (0)

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones

Los sistemas de parámetros distribuidos (DPS) aparecen con frecuencia en los procesos de fabricación industrial, con características complejas como el acoplamiento tiempo-espacio, la no linealidad, la dimensión infinita, la incertidumbre, etc., lo cual supone un gran desafío para la modelización del sistema. En la actualidad, la mayoría de los métodos de modelización de DPS son offline. Cuando los parámetros internos o el entorno externo de un DPS cambian, el modelo offline no puede representar con precisión los atributos dinámicos del sistema real. Es muy importante establecer un modelo online para DPS que refleje con precisión la dinámica en tiempo real del sistema. En este documento, la idea del aprendizaje por refuerzo se integra de forma creativa en el modelo difuso tridimensional (3D) y se propone un método de modelización difusa tridimensional basado en el aprendizaje por refuerzo. El agente mejora la estrategia interactuando continuamente con el entorno, de modo que el modelo difuso 3D puede establecer adaptativamente el modelo online desde cero. Específicamente, este documento combina el algoritmo de aprendizaje por refuerzo de gradiente de estrategia determinista basado en un marco de actor crítico con un sistema difuso 3D. La función de actor y la función de crítico están representadas por dos sistemas difusos 3D y se actualizan alternativamente. La función de crítico utiliza un objetivo TD (0) y se actualiza mediante el método de semigradiente; la función de actor se actualiza utilizando la regla de derivación en cadena sobre la función de valor del comportamiento y la función de actor es el modelo online de DPS establecido. Dado que la modelización de DPS es un problema continuo, este documento propone un objetivo TD (0) basado en la recompensa promedio, que puede realizar efectivamente la modelización online. La metodología sugerida se implementa en un sistema de reactor de deposición química de vapor térmico rápido de tres zonas y los resultados de la simulación demuestran la eficacia de la metodología.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro