Priorizado retrospectiva con doble búfer para el aprendizaje meta-reforzado
Autores: Beyene, Sofanit Wubeshet; Han, Ji-Hyeong
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Priorizado retrospectiva con doble búfer para el aprendizaje meta-reforzado
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Tareas de manipulación robótica
Algoritmos de aprendizaje por refuerzo profundo
Problemas de manipulación multitarea
Eficiencia de muestra
Algoritmo de actor-crítico suave
Exploración estructurada
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Compartir el conocimiento previo en múltiples tareas de manipulación robótica es un tema de investigación desafiante. Aunque los algoritmos de aprendizaje profundo por refuerzo (DRL) de vanguardia han demostrado un inmenso éxito en tareas robóticas individuales, aún es difícil extender estos algoritmos para que se apliquen directamente a resolver problemas de manipulación multi-tarea. Esto se debe principalmente a los problemas asociados con la exploración eficiente en espacios de estado de alta dimensión y acciones continuas. Además, en escenarios multi-tarea, el problema de la recompensa escasa y la ineficiencia de muestra de los algoritmos DRL se ve agravado. Por lo tanto, proponemos un método para aumentar la eficiencia de muestra del algoritmo de crítico de actor suave (SAC) y extenderlo a un entorno multi-tarea. El agente aprende una política previa a partir de dos tareas estructuralmente similares y adapta la política a una tarea objetivo. Proponemos un enfoque retrospectivo priorizado con doble repetición de experiencia para mejorar el almacenamiento de datos y la técnica de muestreo, lo que, a su vez, ayuda al agente a realizar una exploración estructurada que conduce a la eficiencia de muestra. El método propuesto separa el búfer de repetición de experiencia en dos búferes para contener trayectorias reales y trayectorias retrospectivas para reducir el sesgo introducido por las trayectorias retrospectivas en el búfer. Además, utilizamos transiciones de alta recompensa de tareas anteriores para ayudar a la red a adaptarse fácilmente a la nueva tarea. Demostramos el método propuesto en varias tareas de manipulación utilizando un brazo robótico de 7 grados de libertad en RLBench. Los resultados experimentales muestran que el método propuesto supera al SAC básico tanto en un entorno de tarea única como en un entorno de múltiples tareas.
Descripción
Compartir el conocimiento previo en múltiples tareas de manipulación robótica es un tema de investigación desafiante. Aunque los algoritmos de aprendizaje profundo por refuerzo (DRL) de vanguardia han demostrado un inmenso éxito en tareas robóticas individuales, aún es difícil extender estos algoritmos para que se apliquen directamente a resolver problemas de manipulación multi-tarea. Esto se debe principalmente a los problemas asociados con la exploración eficiente en espacios de estado de alta dimensión y acciones continuas. Además, en escenarios multi-tarea, el problema de la recompensa escasa y la ineficiencia de muestra de los algoritmos DRL se ve agravado. Por lo tanto, proponemos un método para aumentar la eficiencia de muestra del algoritmo de crítico de actor suave (SAC) y extenderlo a un entorno multi-tarea. El agente aprende una política previa a partir de dos tareas estructuralmente similares y adapta la política a una tarea objetivo. Proponemos un enfoque retrospectivo priorizado con doble repetición de experiencia para mejorar el almacenamiento de datos y la técnica de muestreo, lo que, a su vez, ayuda al agente a realizar una exploración estructurada que conduce a la eficiencia de muestra. El método propuesto separa el búfer de repetición de experiencia en dos búferes para contener trayectorias reales y trayectorias retrospectivas para reducir el sesgo introducido por las trayectorias retrospectivas en el búfer. Además, utilizamos transiciones de alta recompensa de tareas anteriores para ayudar a la red a adaptarse fácilmente a la nueva tarea. Demostramos el método propuesto en varias tareas de manipulación utilizando un brazo robótico de 7 grados de libertad en RLBench. Los resultados experimentales muestran que el método propuesto supera al SAC básico tanto en un entorno de tarea única como en un entorno de múltiples tareas.