logo móvil
Contáctanos

Experiencias sintéticas para acelerar el rendimiento de dqn en entornos discretos no determinísticos

Autores: Pilar von Pilchau, Wenzel; Stein, Anthony; Hähner, Jörg

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Experiencias sintéticas para acelerar el rendimiento de dqn en entornos discretos no determinísticos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Aprendizaje profundo por refuerzo
Repetición de experiencia
Repetición de experiencia interpolada
Dqn
Ddpg
Frozenlake8x8-v0

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
Algoritmos de Aprendizaje Profundo por Refuerzo de última generación como DQN y DDPG utilizan el concepto de un búfer de repetición llamado Replay de Experiencia. El uso por defecto contiene solo las experiencias recopiladas durante la ejecución. Proponemos un método llamado Replay de Experiencia Interpolado que utiliza transiciones almacenadas (reales) para crear sintéticas que ayuden al aprendiz. En este primer enfoque en este campo, nos limitamos a entornos discretos y no deterministas y utilizamos un simple promedio ponderado igual de la recompensa en combinación con los estados de seguimiento observados. Pudimos demostrar una mejora significativa en el promedio general en comparación con una red DQN con Replay de Experiencia básico en el entorno discreto y no determinista FrozenLake8x8-v0.

Otros recursos que podrían interesarte

Temas Virtualpro