logo móvil
Contáctanos

Priorizado retrospectiva con doble búfer para el aprendizaje meta-reforzado

Autores: Beyene, Sofanit Wubeshet; Han, Ji-Hyeong

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Priorizado retrospectiva con doble búfer para el aprendizaje meta-reforzado


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Tareas de manipulación robótica
Algoritmos de aprendizaje por refuerzo profundo
Problemas de manipulación multitarea
Eficiencia de muestra
Algoritmo de actor-crítico suave
Exploración estructurada

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
Compartir el conocimiento previo en múltiples tareas de manipulación robótica es un tema de investigación desafiante. Aunque los algoritmos de aprendizaje profundo por refuerzo (DRL) de vanguardia han demostrado un inmenso éxito en tareas robóticas individuales, aún es difícil extender estos algoritmos para que se apliquen directamente a resolver problemas de manipulación multi-tarea. Esto se debe principalmente a los problemas asociados con la exploración eficiente en espacios de estado de alta dimensión y acciones continuas. Además, en escenarios multi-tarea, el problema de la recompensa escasa y la ineficiencia de muestra de los algoritmos DRL se ve agravado. Por lo tanto, proponemos un método para aumentar la eficiencia de muestra del algoritmo de crítico de actor suave (SAC) y extenderlo a un entorno multi-tarea. El agente aprende una política previa a partir de dos tareas estructuralmente similares y adapta la política a una tarea objetivo. Proponemos un enfoque retrospectivo priorizado con doble repetición de experiencia para mejorar el almacenamiento de datos y la técnica de muestreo, lo que, a su vez, ayuda al agente a realizar una exploración estructurada que conduce a la eficiencia de muestra. El método propuesto separa el búfer de repetición de experiencia en dos búferes para contener trayectorias reales y trayectorias retrospectivas para reducir el sesgo introducido por las trayectorias retrospectivas en el búfer. Además, utilizamos transiciones de alta recompensa de tareas anteriores para ayudar a la red a adaptarse fácilmente a la nueva tarea. Demostramos el método propuesto en varias tareas de manipulación utilizando un brazo robótico de 7 grados de libertad en RLBench. Los resultados experimentales muestran que el método propuesto supera al SAC básico tanto en un entorno de tarea única como en un entorno de múltiples tareas.

Otros recursos que podrían interesarte

Temas Virtualpro