Método de optimización de política de proyección estereoscópica basado en aprendizaje profundo por refuerzo
Autores: An, Jing; Si, Guang-Ya; Zhang, Lei; Liu, Wei; Zhang, Xue-Chao
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Método de optimización de política de proyección estereoscópica basado en aprendizaje profundo por refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje profundo por refuerzo
Optimización de políticas
Proyección estereoscópica
Método de experimento de simulación
Marco de aprendizaje profundo
Actor-crítico de ventaja asincrónica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
Basado en el buen rendimiento del aprendizaje profundo por refuerzo (DRL) en la optimización de políticas, se propone un método de optimización de políticas de proyección estereoscópica que combina el método de experimento de simulación con el método DRL. Sobre la base de la investigación en optimización de políticas, se selecciona un marco de aprendizaje profundo de acuerdo con los problemas de investigación, y se construye un modelo de política de proyección estereoscópica DRL basado en el algoritmo de actor-crítico de ventaja asincrónica (A3C), que utiliza dos grupos de redes neuronales. La política de proyección estereoscópica optimizada se obtiene mediante el aprendizaje interactivo entre el modelo DRL y la simulación. Se verifica la efectividad de la política de optimización cooperativa entre el DRL y el experimento de simulación.
Descripción
Basado en el buen rendimiento del aprendizaje profundo por refuerzo (DRL) en la optimización de políticas, se propone un método de optimización de políticas de proyección estereoscópica que combina el método de experimento de simulación con el método DRL. Sobre la base de la investigación en optimización de políticas, se selecciona un marco de aprendizaje profundo de acuerdo con los problemas de investigación, y se construye un modelo de política de proyección estereoscópica DRL basado en el algoritmo de actor-crítico de ventaja asincrónica (A3C), que utiliza dos grupos de redes neuronales. La política de proyección estereoscópica optimizada se obtiene mediante el aprendizaje interactivo entre el modelo DRL y la simulación. Se verifica la efectividad de la política de optimización cooperativa entre el DRL y el experimento de simulación.