¿políticas sin dimensiones basadas en el teorema de Buckingham: es esta una buena manera de generalizar resultados numéricos?

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

¿políticas sin dimensiones basadas en el teorema de Buckingham: es esta una buena manera de generalizar resultados numéricos?

Autores: Girard, Alexandre

Idioma: Inglés

Editor: MDPI

Año: 2024

Acceso abierto

Artículo científico

2024

¿políticas sin dimensiones basadas en el teorema de Buckingham: es esta una buena manera de generalizar resultados numéricos?

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Respuesta

Contexto

Variables

Políticas de control

Escalado

Sistemas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones

La respuesta a la pregunta planteada en el título es sí si el contexto (la lista de variables que definen el problema de control de movimiento) es dimensionalmente similar. Este artículo explora el uso del teorema de Buckingham como una herramienta para codificar las políticas de control de sistemas físicos en una forma más genérica de conocimiento que puede ser reutilizada en diversas situaciones. Este enfoque puede interpretarse como la imposición de invariancia a la escala de las unidades fundamentales en un algoritmo que aprende una política de control. Primero, mostramos, al reformular la solución a un problema de control de movimiento usando variables adimensionales, que (1) el mapeo de políticas implica un número reducido de parámetros y (2) las políticas de control generadas numéricamente para un sistema específico pueden transferirse exactamente a un subconjunto de sistemas dimensionalmente similares escalando adecuadamente las variables de entrada y salida. Estos dos resultados teóricos genéricos se demuestran luego, con controladores óptimos generados numéricamente, para el clásico problema de control de movimiento de balanceo de un péndulo invertido con límite de par de torsión y la posición de un vehículo en condiciones resbaladizas. También discutimos el concepto de régimen, una región en el espacio de variables de contexto, que puede ayudar a relajar la condición de similitud. Además, discutimos cómo la aplicación de escalado dimensional de la entrada y salida de una política de caja negra específica del contexto es equivalente a sustituir nuevos parámetros del sistema en una ecuación analítica bajo algunas condiciones, utilizando un regulador cuadrático lineal (LQR) y un controlador de torque computado como ejemplos. Queda por verse qué tan práctico puede ser este enfoque para generalizar políticas para problemas más complejos de alta dimensión, pero los resultados iniciales muestran que es una herramienta prometedora de aprendizaje de transferencia para enfoques numéricos como la programación dinámica y el aprendizaje por refuerzo.

Descripción

La respuesta a la pregunta planteada en el título es sí si el contexto (la lista de variables que definen el problema de control de movimiento) es dimensionalmente similar. Este artículo explora el uso del teorema de Buckingham como una herramienta para codificar las políticas de control de sistemas físicos en una forma más genérica de conocimiento que puede ser reutilizada en diversas situaciones. Este enfoque puede interpretarse como la imposición de invariancia a la escala de las unidades fundamentales en un algoritmo que aprende una política de control. Primero, mostramos, al reformular la solución a un problema de control de movimiento usando variables adimensionales, que (1) el mapeo de políticas implica un número reducido de parámetros y (2) las políticas de control generadas numéricamente para un sistema específico pueden transferirse exactamente a un subconjunto de sistemas dimensionalmente similares escalando adecuadamente las variables de entrada y salida. Estos dos resultados teóricos genéricos se demuestran luego, con controladores óptimos generados numéricamente, para el clásico problema de control de movimiento de balanceo de un péndulo invertido con límite de par de torsión y la posición de un vehículo en condiciones resbaladizas. También discutimos el concepto de régimen, una región en el espacio de variables de contexto, que puede ayudar a relajar la condición de similitud. Además, discutimos cómo la aplicación de escalado dimensional de la entrada y salida de una política de caja negra específica del contexto es equivalente a sustituir nuevos parámetros del sistema en una ecuación analítica bajo algunas condiciones, utilizando un regulador cuadrático lineal (LQR) y un controlador de torque computado como ejemplos. Queda por verse qué tan práctico puede ser este enfoque para generalizar políticas para problemas más complejos de alta dimensión, pero los resultados iniciales muestran que es una herramienta prometedora de aprendizaje de transferencia para enfoques numéricos como la programación dinámica y el aprendizaje por refuerzo.

Otros recursos que podrían interesarte

Temas Virtualpro