logo móvil
Contáctanos

Aprendizaje guiado por políticas no dominadas en el aprendizaje por refuerzo multiobjetivo

Autores: Kim, Man-Je; Park, Hyunsoo; Ahn, Chang Wook

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Aprendizaje guiado por políticas no dominadas en el aprendizaje por refuerzo multiobjetivo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Control de inteligencia
Inteligencia artificial
Aprendizaje profundo de refuerzo multiobjetivo
Optimización de políticas
óptimos de Pareto
Asimilación de políticas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 53

Citaciones: Sin citaciones


Descripción
La inteligencia de control es un campo típico donde hay un equilibrio entre los objetivos establecidos, y los investigadores en este campo han anhelado una inteligencia artificial que logre los objetivos establecidos. El aprendizaje profundo de refuerzo multiobjetivo fue suficiente para satisfacer esta necesidad. En particular, los métodos de aprendizaje profundo de refuerzo multiobjetivo basados en la optimización de políticas están liderando la optimización de la inteligencia de control. Sin embargo, el aprendizaje de refuerzo multiobjetivo tiene dificultades para encontrar varios óptimos de Pareto de múltiples objetivos debido a la naturaleza codiciosa del aprendizaje por refuerzo. Proponemos un método de asimilación de políticas para resolver este problema. Este método se aplicó a MO-V-MPO, uno de los aprendizajes de refuerzo multiobjetivo basados en preferencias, para aumentar la diversidad. El rendimiento de este método ha sido verificado a través de experimentos en un entorno de control continuo.

Otros recursos que podrían interesarte

Temas Virtualpro