Aprendizaje guiado por políticas no dominadas en el aprendizaje por refuerzo multiobjetivo
Autores: Kim, Man-Je; Park, Hyunsoo; Ahn, Chang Wook
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendizaje guiado por políticas no dominadas en el aprendizaje por refuerzo multiobjetivo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Control de inteligencia
Inteligencia artificial
Aprendizaje profundo de refuerzo multiobjetivo
Optimización de políticas
óptimos de Pareto
Asimilación de políticas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 53
Citaciones: Sin citaciones
La inteligencia de control es un campo típico donde hay un equilibrio entre los objetivos establecidos, y los investigadores en este campo han anhelado una inteligencia artificial que logre los objetivos establecidos. El aprendizaje profundo de refuerzo multiobjetivo fue suficiente para satisfacer esta necesidad. En particular, los métodos de aprendizaje profundo de refuerzo multiobjetivo basados en la optimización de políticas están liderando la optimización de la inteligencia de control. Sin embargo, el aprendizaje de refuerzo multiobjetivo tiene dificultades para encontrar varios óptimos de Pareto de múltiples objetivos debido a la naturaleza codiciosa del aprendizaje por refuerzo. Proponemos un método de asimilación de políticas para resolver este problema. Este método se aplicó a MO-V-MPO, uno de los aprendizajes de refuerzo multiobjetivo basados en preferencias, para aumentar la diversidad. El rendimiento de este método ha sido verificado a través de experimentos en un entorno de control continuo.
Descripción
La inteligencia de control es un campo típico donde hay un equilibrio entre los objetivos establecidos, y los investigadores en este campo han anhelado una inteligencia artificial que logre los objetivos establecidos. El aprendizaje profundo de refuerzo multiobjetivo fue suficiente para satisfacer esta necesidad. En particular, los métodos de aprendizaje profundo de refuerzo multiobjetivo basados en la optimización de políticas están liderando la optimización de la inteligencia de control. Sin embargo, el aprendizaje de refuerzo multiobjetivo tiene dificultades para encontrar varios óptimos de Pareto de múltiples objetivos debido a la naturaleza codiciosa del aprendizaje por refuerzo. Proponemos un método de asimilación de políticas para resolver este problema. Este método se aplicó a MO-V-MPO, uno de los aprendizajes de refuerzo multiobjetivo basados en preferencias, para aumentar la diversidad. El rendimiento de este método ha sido verificado a través de experimentos en un entorno de control continuo.