Valor de visita a largo plazo para exploración profunda en aprendizaje por refuerzo con recompensas escasas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Valor de visita a largo plazo para exploración profunda en aprendizaje por refuerzo con recompensas escasas

Autores: Parisi, Simone; Tateo, Davide; Hensel, Maximilian; D"Eramo, Carlo; Peters, Jan; Pajarinen, Joni

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Valor de visita a largo plazo para exploración profunda en aprendizaje por refuerzo con recompensas escasas

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Aprendizaje por refuerzo

Recompensas escasas

Exploración

Agente

Recompensas auxiliares

Función Q

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones

El aprendizaje por refuerzo con recompensas escasas sigue siendo un desafío abierto. Los métodos clásicos dependen de recibir retroalimentación a través de recompensas extrínsecas para entrenar al agente, y en situaciones donde esto ocurre muy raramente, el agente aprende lentamente o no puede aprender en absoluto. Del mismo modo, si el agente recibe también recompensas que crean modos subóptimos de la función objetivo, es probable que deje de explorar prematuramente. Los métodos más recientes añaden recompensas intrínsecas auxiliares para fomentar la exploración. Sin embargo, las recompensas auxiliares llevan a un objetivo no estacionario para la función Q. En este documento, presentamos un enfoque novedoso que (1) planifica acciones de exploración a largo plazo utilizando un recuento de visitas a largo plazo, y (2) desacopla la exploración y la explotación mediante el aprendizaje de una función separada que evalúa el valor de exploración de las acciones. A diferencia de los métodos existentes que utilizan modelos de recompensa y dinámica, nuestro enfoque es fuera de política y libre de modelo. Además, proponemos nuevos entornos tabulares para evaluar la exploración en el aprendizaje por refuerzo. Los resultados empíricos en benchmarks clásicos y novedosos muestran que el enfoque propuesto supera a los métodos existentes en entornos con recompensas escasas, especialmente en presencia de recompensas que crean modos subóptimos de la función objetivo. Los resultados también sugieren que nuestro enfoque se adapta de manera óptima al tamaño del entorno.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro