Episódico autoimitación con retrospectiva

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Episódico autoimitación con retrospectiva

Autores: Dai, Tianhong; Liu, Hengyan; Anthony Bharath, Anil

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico

2020

Episódico autoimitación con retrospectiva

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje de autoimitación episódico

Módulo de selección de trayectoria

Función de pérdida adaptativa

Aprendizaje por refuerzo

Entornos de control continuo

Recompensas dispersas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones

El aprendizaje de autoimitación episódico, un nuevo algoritmo de autoimitación con un módulo de selección de trayectorias y una función de pérdida adaptativa, se propone para acelerar el aprendizaje por refuerzo. Comparado con el algoritmo original de autoimitación, que muestrea pares estado-acción buenos del búfer de reproducción de experiencias, nuestro agente aprovecha episodios completos con perspectiva retrospectiva para ayudar al aprendizaje de autoimitación. Se introduce un módulo de selección para filtrar muestras no informativas de cada episodio de la actualización. El método propuesto supera las limitaciones del algoritmo estándar de autoimitación, un método basado en transiciones que funciona mal al manejar entornos de control continuo con recompensas escasas. A partir de los experimentos, se muestra que el aprendizaje de autoimitación episódico funciona mejor que los algoritmos de política en línea de referencia, logrando un rendimiento comparable a los algoritmos fuera de línea de vanguardia en varias tareas de control de robots simulados. Se muestra que el módulo de selección de trayectorias evita que el agente aprenda experiencias retrospectivas no deseadas. Con la capacidad de resolver problemas de recompensa escasa en entornos de control continuo, el aprendizaje de autoimitación episódico tiene el potencial de aplicarse a problemas del mundo real que tienen espacios de acción continuos, como la guía y manipulación de robots.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro