Valor de visita a largo plazo para exploración profunda en aprendizaje por refuerzo con recompensas escasas
Autores: Parisi, Simone; Tateo, Davide; Hensel, Maximilian; D"Eramo, Carlo; Peters, Jan; Pajarinen, Joni
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Valor de visita a largo plazo para exploración profunda en aprendizaje por refuerzo con recompensas escasas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Aprendizaje por refuerzo
Recompensas escasas
Exploración
Agente
Recompensas auxiliares
Función Q
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
El aprendizaje por refuerzo con recompensas escasas sigue siendo un desafío abierto. Los métodos clásicos dependen de recibir retroalimentación a través de recompensas extrínsecas para entrenar al agente, y en situaciones donde esto ocurre muy raramente, el agente aprende lentamente o no puede aprender en absoluto. Del mismo modo, si el agente recibe también recompensas que crean modos subóptimos de la función objetivo, es probable que deje de explorar prematuramente. Los métodos más recientes añaden recompensas intrínsecas auxiliares para fomentar la exploración. Sin embargo, las recompensas auxiliares llevan a un objetivo no estacionario para la función Q. En este documento, presentamos un enfoque novedoso que (1) planifica acciones de exploración a largo plazo utilizando un recuento de visitas a largo plazo, y (2) desacopla la exploración y la explotación mediante el aprendizaje de una función separada que evalúa el valor de exploración de las acciones. A diferencia de los métodos existentes que utilizan modelos de recompensa y dinámica, nuestro enfoque es fuera de política y libre de modelo. Además, proponemos nuevos entornos tabulares para evaluar la exploración en el aprendizaje por refuerzo. Los resultados empíricos en benchmarks clásicos y novedosos muestran que el enfoque propuesto supera a los métodos existentes en entornos con recompensas escasas, especialmente en presencia de recompensas que crean modos subóptimos de la función objetivo. Los resultados también sugieren que nuestro enfoque se adapta de manera óptima al tamaño del entorno.
Descripción
El aprendizaje por refuerzo con recompensas escasas sigue siendo un desafío abierto. Los métodos clásicos dependen de recibir retroalimentación a través de recompensas extrínsecas para entrenar al agente, y en situaciones donde esto ocurre muy raramente, el agente aprende lentamente o no puede aprender en absoluto. Del mismo modo, si el agente recibe también recompensas que crean modos subóptimos de la función objetivo, es probable que deje de explorar prematuramente. Los métodos más recientes añaden recompensas intrínsecas auxiliares para fomentar la exploración. Sin embargo, las recompensas auxiliares llevan a un objetivo no estacionario para la función Q. En este documento, presentamos un enfoque novedoso que (1) planifica acciones de exploración a largo plazo utilizando un recuento de visitas a largo plazo, y (2) desacopla la exploración y la explotación mediante el aprendizaje de una función separada que evalúa el valor de exploración de las acciones. A diferencia de los métodos existentes que utilizan modelos de recompensa y dinámica, nuestro enfoque es fuera de política y libre de modelo. Además, proponemos nuevos entornos tabulares para evaluar la exploración en el aprendizaje por refuerzo. Los resultados empíricos en benchmarks clásicos y novedosos muestran que el enfoque propuesto supera a los métodos existentes en entornos con recompensas escasas, especialmente en presencia de recompensas que crean modos subóptimos de la función objetivo. Los resultados también sugieren que nuestro enfoque se adapta de manera óptima al tamaño del entorno.