logo móvil
Contáctanos

Valor de visita a largo plazo para exploración profunda en aprendizaje por refuerzo con recompensas escasas

Autores: Parisi, Simone; Tateo, Davide; Hensel, Maximilian; D"Eramo, Carlo; Peters, Jan; Pajarinen, Joni

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Valor de visita a largo plazo para exploración profunda en aprendizaje por refuerzo con recompensas escasas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Aprendizaje por refuerzo
Recompensas escasas
Exploración
Agente
Recompensas auxiliares
Función Q

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones


Descripción
El aprendizaje por refuerzo con recompensas escasas sigue siendo un desafío abierto. Los métodos clásicos dependen de recibir retroalimentación a través de recompensas extrínsecas para entrenar al agente, y en situaciones donde esto ocurre muy raramente, el agente aprende lentamente o no puede aprender en absoluto. Del mismo modo, si el agente recibe también recompensas que crean modos subóptimos de la función objetivo, es probable que deje de explorar prematuramente. Los métodos más recientes añaden recompensas intrínsecas auxiliares para fomentar la exploración. Sin embargo, las recompensas auxiliares llevan a un objetivo no estacionario para la función Q. En este documento, presentamos un enfoque novedoso que (1) planifica acciones de exploración a largo plazo utilizando un recuento de visitas a largo plazo, y (2) desacopla la exploración y la explotación mediante el aprendizaje de una función separada que evalúa el valor de exploración de las acciones. A diferencia de los métodos existentes que utilizan modelos de recompensa y dinámica, nuestro enfoque es fuera de política y libre de modelo. Además, proponemos nuevos entornos tabulares para evaluar la exploración en el aprendizaje por refuerzo. Los resultados empíricos en benchmarks clásicos y novedosos muestran que el enfoque propuesto supera a los métodos existentes en entornos con recompensas escasas, especialmente en presencia de recompensas que crean modos subóptimos de la función objetivo. Los resultados también sugieren que nuestro enfoque se adapta de manera óptima al tamaño del entorno.

Otros recursos que podrían interesarte

Temas Virtualpro