Experiencias sintéticas para acelerar el rendimiento de dqn en entornos discretos no determinísticos
Autores: Pilar von Pilchau, Wenzel; Stein, Anthony; Hähner, Jörg
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Experiencias sintéticas para acelerar el rendimiento de dqn en entornos discretos no determinísticos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Aprendizaje profundo por refuerzo
Repetición de experiencia
Repetición de experiencia interpolada
Dqn
Ddpg
Frozenlake8x8-v0
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Algoritmos de Aprendizaje Profundo por Refuerzo de última generación como DQN y DDPG utilizan el concepto de un búfer de repetición llamado Replay de Experiencia. El uso por defecto contiene solo las experiencias recopiladas durante la ejecución. Proponemos un método llamado Replay de Experiencia Interpolado que utiliza transiciones almacenadas (reales) para crear sintéticas que ayuden al aprendiz. En este primer enfoque en este campo, nos limitamos a entornos discretos y no deterministas y utilizamos un simple promedio ponderado igual de la recompensa en combinación con los estados de seguimiento observados. Pudimos demostrar una mejora significativa en el promedio general en comparación con una red DQN con Replay de Experiencia básico en el entorno discreto y no determinista FrozenLake8x8-v0.
Descripción
Algoritmos de Aprendizaje Profundo por Refuerzo de última generación como DQN y DDPG utilizan el concepto de un búfer de repetición llamado Replay de Experiencia. El uso por defecto contiene solo las experiencias recopiladas durante la ejecución. Proponemos un método llamado Replay de Experiencia Interpolado que utiliza transiciones almacenadas (reales) para crear sintéticas que ayuden al aprendiz. En este primer enfoque en este campo, nos limitamos a entornos discretos y no deterministas y utilizamos un simple promedio ponderado igual de la recompensa en combinación con los estados de seguimiento observados. Pudimos demostrar una mejora significativa en el promedio general en comparación con una red DQN con Replay de Experiencia básico en el entorno discreto y no determinista FrozenLake8x8-v0.