logo móvil
Contáctanos

¿políticas sin dimensiones basadas en el teorema de Buckingham: es esta una buena manera de generalizar resultados numéricos?

Autores: Girard, Alexandre

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

¿políticas sin dimensiones basadas en el teorema de Buckingham: es esta una buena manera de generalizar resultados numéricos?


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Respuesta
Contexto
Variables
Políticas de control
Escalado
Sistemas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones


Descripción
La respuesta a la pregunta planteada en el título es sí si el contexto (la lista de variables que definen el problema de control de movimiento) es dimensionalmente similar. Este artículo explora el uso del teorema de Buckingham como una herramienta para codificar las políticas de control de sistemas físicos en una forma más genérica de conocimiento que puede ser reutilizada en diversas situaciones. Este enfoque puede interpretarse como la imposición de invariancia a la escala de las unidades fundamentales en un algoritmo que aprende una política de control. Primero, mostramos, al reformular la solución a un problema de control de movimiento usando variables adimensionales, que (1) el mapeo de políticas implica un número reducido de parámetros y (2) las políticas de control generadas numéricamente para un sistema específico pueden transferirse exactamente a un subconjunto de sistemas dimensionalmente similares escalando adecuadamente las variables de entrada y salida. Estos dos resultados teóricos genéricos se demuestran luego, con controladores óptimos generados numéricamente, para el clásico problema de control de movimiento de balanceo de un péndulo invertido con límite de par de torsión y la posición de un vehículo en condiciones resbaladizas. También discutimos el concepto de régimen, una región en el espacio de variables de contexto, que puede ayudar a relajar la condición de similitud. Además, discutimos cómo la aplicación de escalado dimensional de la entrada y salida de una política de caja negra específica del contexto es equivalente a sustituir nuevos parámetros del sistema en una ecuación analítica bajo algunas condiciones, utilizando un regulador cuadrático lineal (LQR) y un controlador de torque computado como ejemplos. Queda por verse qué tan práctico puede ser este enfoque para generalizar políticas para problemas más complejos de alta dimensión, pero los resultados iniciales muestran que es una herramienta prometedora de aprendizaje de transferencia para enfoques numéricos como la programación dinámica y el aprendizaje por refuerzo.

Otros recursos que podrían interesarte

Temas Virtualpro