Episódico autoimitación con retrospectiva
Autores: Dai, Tianhong; Liu, Hengyan; Anthony Bharath, Anil
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Episódico autoimitación con retrospectiva
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje de autoimitación episódico
Módulo de selección de trayectoria
Función de pérdida adaptativa
Aprendizaje por refuerzo
Entornos de control continuo
Recompensas dispersas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
El aprendizaje de autoimitación episódico, un nuevo algoritmo de autoimitación con un módulo de selección de trayectorias y una función de pérdida adaptativa, se propone para acelerar el aprendizaje por refuerzo. Comparado con el algoritmo original de autoimitación, que muestrea pares estado-acción buenos del búfer de reproducción de experiencias, nuestro agente aprovecha episodios completos con perspectiva retrospectiva para ayudar al aprendizaje de autoimitación. Se introduce un módulo de selección para filtrar muestras no informativas de cada episodio de la actualización. El método propuesto supera las limitaciones del algoritmo estándar de autoimitación, un método basado en transiciones que funciona mal al manejar entornos de control continuo con recompensas escasas. A partir de los experimentos, se muestra que el aprendizaje de autoimitación episódico funciona mejor que los algoritmos de política en línea de referencia, logrando un rendimiento comparable a los algoritmos fuera de línea de vanguardia en varias tareas de control de robots simulados. Se muestra que el módulo de selección de trayectorias evita que el agente aprenda experiencias retrospectivas no deseadas. Con la capacidad de resolver problemas de recompensa escasa en entornos de control continuo, el aprendizaje de autoimitación episódico tiene el potencial de aplicarse a problemas del mundo real que tienen espacios de acción continuos, como la guía y manipulación de robots.
Descripción
El aprendizaje de autoimitación episódico, un nuevo algoritmo de autoimitación con un módulo de selección de trayectorias y una función de pérdida adaptativa, se propone para acelerar el aprendizaje por refuerzo. Comparado con el algoritmo original de autoimitación, que muestrea pares estado-acción buenos del búfer de reproducción de experiencias, nuestro agente aprovecha episodios completos con perspectiva retrospectiva para ayudar al aprendizaje de autoimitación. Se introduce un módulo de selección para filtrar muestras no informativas de cada episodio de la actualización. El método propuesto supera las limitaciones del algoritmo estándar de autoimitación, un método basado en transiciones que funciona mal al manejar entornos de control continuo con recompensas escasas. A partir de los experimentos, se muestra que el aprendizaje de autoimitación episódico funciona mejor que los algoritmos de política en línea de referencia, logrando un rendimiento comparable a los algoritmos fuera de línea de vanguardia en varias tareas de control de robots simulados. Se muestra que el módulo de selección de trayectorias evita que el agente aprenda experiencias retrospectivas no deseadas. Con la capacidad de resolver problemas de recompensa escasa en entornos de control continuo, el aprendizaje de autoimitación episódico tiene el potencial de aplicarse a problemas del mundo real que tienen espacios de acción continuos, como la guía y manipulación de robots.