Aprendizaje por refuerzo profundo basado en políticas con bootstrap paralelo para aplicaciones de control de flujo de fluidos continuo
Autores: Viquerat, Jonathan; Hachem, Elie
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Aprendizaje por refuerzo profundo basado en políticas con bootstrap paralelo para aplicaciones de control de flujo de fluidos continuo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Mecánica
Palabras clave
Aprendizaje por refuerzo
Control de flujo numérico
Entornos paralelos
Solucionadores de dinámica de fluidos
Algoritmos on-policy
Patrón de paralelismo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La combinación del aprendizaje por refuerzo profundo con problemas numéricos de control de flujo ha recibido recientemente una atención considerable, lo que ha llevado a resultados innovadores y ha abierto nuevas perspectivas para el dominio. Debido al alto costo computacional de los solucionadores de dinámica de fluidos, el uso de entornos paralelos durante el proceso de aprendizaje representa un ingrediente esencial para lograr un control eficiente en un tiempo razonable. Sin embargo, la mayor parte de la literatura sobre aprendizaje por refuerzo profundo para el control de flujo se basa en algoritmos on-policy, para los cuales la recolección de transiciones masivamente paralela puede romper supuestos teóricos y llevar a modelos de control subóptimos. Para superar este problema, proponemos un patrón de paralelismo que se basa en búferes de trayectoria parcial terminados por un paso de arranque de retorno, lo que permite un uso flexible de entornos paralelos mientras se preserva la naturaleza on-policy de las actualizaciones. Este enfoque se ilustra en un problema de control de flujo continuo intensivo en CPU de la literatura.
Descripción
La combinación del aprendizaje por refuerzo profundo con problemas numéricos de control de flujo ha recibido recientemente una atención considerable, lo que ha llevado a resultados innovadores y ha abierto nuevas perspectivas para el dominio. Debido al alto costo computacional de los solucionadores de dinámica de fluidos, el uso de entornos paralelos durante el proceso de aprendizaje representa un ingrediente esencial para lograr un control eficiente en un tiempo razonable. Sin embargo, la mayor parte de la literatura sobre aprendizaje por refuerzo profundo para el control de flujo se basa en algoritmos on-policy, para los cuales la recolección de transiciones masivamente paralela puede romper supuestos teóricos y llevar a modelos de control subóptimos. Para superar este problema, proponemos un patrón de paralelismo que se basa en búferes de trayectoria parcial terminados por un paso de arranque de retorno, lo que permite un uso flexible de entornos paralelos mientras se preserva la naturaleza on-policy de las actualizaciones. Este enfoque se ilustra en un problema de control de flujo continuo intensivo en CPU de la literatura.