Gestión de energía para vehículos eléctricos híbridos mediante aprendizaje por refuerzo de acción híbrida segura
Autores: Xu, Jinming; Lin, Yuan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Gestión de energía para vehículos eléctricos híbridos mediante aprendizaje por refuerzo de acción híbrida segura
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje por refuerzo
Seguridad
Sistemas de gestión de energía
Vehículos eléctricos híbridos
Actor crítico suave parametrizado basado en Lagrangiano
PASACLag
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
El aprendizaje por refuerzo ha demostrado éxito en la resolución de problemas de control complejos, sin embargo, la seguridad sigue siendo primordial en aplicaciones de ingeniería como los sistemas de gestión de energía (EMS), especialmente en vehículos híbridos eléctricos (HEVs). Un EMS efectivo es crucial para coordinar el flujo de energía mientras se garantiza la seguridad, como mantener el estado de carga de la batería dentro de límites seguros, lo que representa una tarea desafiante. El aprendizaje por refuerzo tradicional lucha con las restricciones de seguridad, y el método de penalización a menudo conduce a un rendimiento subóptimo. Este estudio introduce PASACLag, un algoritmo novedoso de aprendizaje por refuerzo seguro de acción híbrida basado en Lagrangiano para la gestión de energía de HEV. PASACLag utiliza una representación de acción compuesta única para manejar acciones continuas (por ejemplo, par motor del motor) y acciones discretas (por ejemplo, cambio de marcha y embrague) de manera concurrente. Integra un método Lagrangiano para abordar de forma separada los objetivos de control y las restricciones, simplificando la función de recompensa y mejorando la seguridad. Evaluamos el rendimiento de PASACLag utilizando el Ciclo de Vehículo Armonizado Mundial (901 s), con un análisis de generalización de cuatro ciclos diferentes. Los resultados indican que PASACLag logra un aumento de menos del 10% en el consumo de combustible en comparación con la programación dinámica. Además, PASACLag supera a PASAC, un homólogo inseguro que utiliza métodos de penalización, en economía de combustible y métricas de satisfacción de restricciones durante la generalización. Estos hallazgos resaltan la efectividad de PASACLag en adquirir EMS complejos para el control dentro de un espacio de acción híbrido mientras se prioriza la seguridad.
Descripción
El aprendizaje por refuerzo ha demostrado éxito en la resolución de problemas de control complejos, sin embargo, la seguridad sigue siendo primordial en aplicaciones de ingeniería como los sistemas de gestión de energía (EMS), especialmente en vehículos híbridos eléctricos (HEVs). Un EMS efectivo es crucial para coordinar el flujo de energía mientras se garantiza la seguridad, como mantener el estado de carga de la batería dentro de límites seguros, lo que representa una tarea desafiante. El aprendizaje por refuerzo tradicional lucha con las restricciones de seguridad, y el método de penalización a menudo conduce a un rendimiento subóptimo. Este estudio introduce PASACLag, un algoritmo novedoso de aprendizaje por refuerzo seguro de acción híbrida basado en Lagrangiano para la gestión de energía de HEV. PASACLag utiliza una representación de acción compuesta única para manejar acciones continuas (por ejemplo, par motor del motor) y acciones discretas (por ejemplo, cambio de marcha y embrague) de manera concurrente. Integra un método Lagrangiano para abordar de forma separada los objetivos de control y las restricciones, simplificando la función de recompensa y mejorando la seguridad. Evaluamos el rendimiento de PASACLag utilizando el Ciclo de Vehículo Armonizado Mundial (901 s), con un análisis de generalización de cuatro ciclos diferentes. Los resultados indican que PASACLag logra un aumento de menos del 10% en el consumo de combustible en comparación con la programación dinámica. Además, PASACLag supera a PASAC, un homólogo inseguro que utiliza métodos de penalización, en economía de combustible y métricas de satisfacción de restricciones durante la generalización. Estos hallazgos resaltan la efectividad de PASACLag en adquirir EMS complejos para el control dentro de un espacio de acción híbrido mientras se prioriza la seguridad.