logo móvil
Contáctanos

Juego diferencial de suspensión activa de medio coche no lineal a través de aprendizaje por refuerzo fuera de política

Autores: Wang, Gang; Deng, Jiafan; Zhou, Tingting; Liu, Suqi

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Juego diferencial de suspensión activa de medio coche no lineal a través de aprendizaje por refuerzo fuera de política


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Enfoque
Suspensiones de vehículos activas no lineales
Juego diferencial
Ecuación de Hamilton-Jacobi-Isaacs
Marco actor-crítico
Aprendizaje por refuerzo fuera de política

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 41

Citaciones: Sin citaciones


Descripción
Este artículo investiga un enfoque de juego diferencial sin parámetros para suspensiones activas de vehículos no lineales. El estudio tiene en cuenta la no linealidad geométrica de la suspensión activa de medio automóvil y la no linealidad cúbica de los elementos de amortiguación. El problema de control no lineal se reformula como un juego de suma cero entre dos jugadores, lo que lleva al establecimiento de la ecuación de Hamilton-Jacobi-Isaacs (HJI) con una solución de equilibrio de Nash. Para minimizar la dependencia de los parámetros del modelo durante el proceso de solución, se utiliza un marco de actor-critic que emplea redes neuronales para aproximar la política de control y la función de valor. Se implementa un método de aprendizaje por refuerzo fuera de política para resolver iterativamente la ecuación de HJI. En este enfoque, la política de perturbación se deriva directamente de la función de valor, lo que requiere solo una cantidad limitada de datos de conducción para aproximar la solución de la ecuación de HJI. La innovación principal de este método radica en su capacidad para abordar eficazmente las no linealidades del sistema sin necesidad de parámetros del modelo, lo que lo hace particularmente ventajoso para aplicaciones de ingeniería prácticas. Las simulaciones numéricas confirman la efectividad del método y su rango aplicable. El enfoque de aprendizaje por refuerzo fuera de política garantiza la seguridad del proceso de diseño. Para perturbaciones en carreteras de baja frecuencia, la política de control diseñada mejora tanto la comodidad de conducción como la estabilidad.

Otros recursos que podrían interesarte

Temas Virtualpro