logo móvil
Contáctanos

Episódico autoimitación con retrospectiva

Autores: Dai, Tianhong; Liu, Hengyan; Anthony Bharath, Anil

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Episódico autoimitación con retrospectiva


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje de autoimitación episódico
Módulo de selección de trayectoria
Función de pérdida adaptativa
Aprendizaje por refuerzo
Entornos de control continuo
Recompensas dispersas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
El aprendizaje de autoimitación episódico, un nuevo algoritmo de autoimitación con un módulo de selección de trayectorias y una función de pérdida adaptativa, se propone para acelerar el aprendizaje por refuerzo. Comparado con el algoritmo original de autoimitación, que muestrea pares estado-acción buenos del búfer de reproducción de experiencias, nuestro agente aprovecha episodios completos con perspectiva retrospectiva para ayudar al aprendizaje de autoimitación. Se introduce un módulo de selección para filtrar muestras no informativas de cada episodio de la actualización. El método propuesto supera las limitaciones del algoritmo estándar de autoimitación, un método basado en transiciones que funciona mal al manejar entornos de control continuo con recompensas escasas. A partir de los experimentos, se muestra que el aprendizaje de autoimitación episódico funciona mejor que los algoritmos de política en línea de referencia, logrando un rendimiento comparable a los algoritmos fuera de línea de vanguardia en varias tareas de control de robots simulados. Se muestra que el módulo de selección de trayectorias evita que el agente aprenda experiencias retrospectivas no deseadas. Con la capacidad de resolver problemas de recompensa escasa en entornos de control continuo, el aprendizaje de autoimitación episódico tiene el potencial de aplicarse a problemas del mundo real que tienen espacios de acción continuos, como la guía y manipulación de robots.

Otros recursos que podrían interesarte

Temas Virtualpro