Aprendizaje de seguimiento del modelo de referencia de salida para sistemas no lineales de orden superior con dinámicas desconocidas
Autores: Radac, Mircea-Bogdan; Lala, Timotei
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Aprendizaje de seguimiento del modelo de referencia de salida para sistemas no lineales de orden superior con dinámicas desconocidas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Solución
Programación dinámica aproximada
Sistema de control
Retroalimentación de estado
Iteración de valor
Redes neuronales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
Este trabajo sugiere una solución para el problema de control de seguimiento del modelo de referencia de salida (ORM), basado en programación dinámica aproximada. Los sistemas no lineales generales están incluidos en un sistema de control (CS) y están sujetos a retroalimentación de estado. Mediante la selección lineal de ORM, se obtiene la linealización de retroalimentación indirecta del CS, lo que conduce a un comportamiento lineal favorable del CS. El algoritmo de Iteración de Valor (VI) garantiza el aprendizaje de un controlador de retroalimentación de estado no lineal sin modelo, sin depender de la dinámica del proceso. Desde las parametrizaciones lineales hasta las no lineales, una implementación confiable de VI aproximado en espacios de estado-acción continuos depende de varios parámetros clave como la dimensión del problema, la exploración del espacio de estado-acción, el tamaño del conjunto de datos de transiciones de estado, y una selección adecuada de los aproximadores de funciones. Aquí encontramos que, dado un conjunto de datos de muestra de transición y una parametrización lineal general de la función Q, el rendimiento de seguimiento de ORM obtenido con un esquema de VI aproximado puede alcanzar el nivel de rendimiento de una implementación más general utilizando redes neuronales (NN). Aunque la implementación basada en NN lleva más tiempo aprender debido a su mayor complejidad (más parámetros), es menos sensible a la configuración de exploración, al número de muestras de transición y a los hiperparámetros seleccionados, por lo tanto, se recomienda como la implementación práctica por defecto. Las contribuciones de este trabajo incluyen lo siguiente: la convergencia de VI está garantizada bajo aproximadores de función generales; un estudio de caso para un sistema lineal de bajo orden para generalizar la validación de seguimiento de ORM más compleja en un proceso aerodinámico multivariable no lineal del mundo real; comparaciones con una solución de gradiente de política determinista profunda fuera de línea; detalles de implementación y discusiones adicionales sobre los resultados obtenidos.
Descripción
Este trabajo sugiere una solución para el problema de control de seguimiento del modelo de referencia de salida (ORM), basado en programación dinámica aproximada. Los sistemas no lineales generales están incluidos en un sistema de control (CS) y están sujetos a retroalimentación de estado. Mediante la selección lineal de ORM, se obtiene la linealización de retroalimentación indirecta del CS, lo que conduce a un comportamiento lineal favorable del CS. El algoritmo de Iteración de Valor (VI) garantiza el aprendizaje de un controlador de retroalimentación de estado no lineal sin modelo, sin depender de la dinámica del proceso. Desde las parametrizaciones lineales hasta las no lineales, una implementación confiable de VI aproximado en espacios de estado-acción continuos depende de varios parámetros clave como la dimensión del problema, la exploración del espacio de estado-acción, el tamaño del conjunto de datos de transiciones de estado, y una selección adecuada de los aproximadores de funciones. Aquí encontramos que, dado un conjunto de datos de muestra de transición y una parametrización lineal general de la función Q, el rendimiento de seguimiento de ORM obtenido con un esquema de VI aproximado puede alcanzar el nivel de rendimiento de una implementación más general utilizando redes neuronales (NN). Aunque la implementación basada en NN lleva más tiempo aprender debido a su mayor complejidad (más parámetros), es menos sensible a la configuración de exploración, al número de muestras de transición y a los hiperparámetros seleccionados, por lo tanto, se recomienda como la implementación práctica por defecto. Las contribuciones de este trabajo incluyen lo siguiente: la convergencia de VI está garantizada bajo aproximadores de función generales; un estudio de caso para un sistema lineal de bajo orden para generalizar la validación de seguimiento de ORM más compleja en un proceso aerodinámico multivariable no lineal del mundo real; comparaciones con una solución de gradiente de política determinista profunda fuera de línea; detalles de implementación y discusiones adicionales sobre los resultados obtenidos.