Priorizado retrospectiva con doble búfer para el aprendizaje meta-reforzado

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Priorizado retrospectiva con doble búfer para el aprendizaje meta-reforzado

Autores: Beyene, Sofanit Wubeshet; Han, Ji-Hyeong

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Priorizado retrospectiva con doble búfer para el aprendizaje meta-reforzado

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Tareas de manipulación robótica

Algoritmos de aprendizaje por refuerzo profundo

Problemas de manipulación multitarea

Eficiencia de muestra

Algoritmo de actor-crítico suave

Exploración estructurada

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones

Compartir el conocimiento previo en múltiples tareas de manipulación robótica es un tema de investigación desafiante. Aunque los algoritmos de aprendizaje profundo por refuerzo (DRL) de vanguardia han demostrado un inmenso éxito en tareas robóticas individuales, aún es difícil extender estos algoritmos para que se apliquen directamente a resolver problemas de manipulación multi-tarea. Esto se debe principalmente a los problemas asociados con la exploración eficiente en espacios de estado de alta dimensión y acciones continuas. Además, en escenarios multi-tarea, el problema de la recompensa escasa y la ineficiencia de muestra de los algoritmos DRL se ve agravado. Por lo tanto, proponemos un método para aumentar la eficiencia de muestra del algoritmo de crítico de actor suave (SAC) y extenderlo a un entorno multi-tarea. El agente aprende una política previa a partir de dos tareas estructuralmente similares y adapta la política a una tarea objetivo. Proponemos un enfoque retrospectivo priorizado con doble repetición de experiencia para mejorar el almacenamiento de datos y la técnica de muestreo, lo que, a su vez, ayuda al agente a realizar una exploración estructurada que conduce a la eficiencia de muestra. El método propuesto separa el búfer de repetición de experiencia en dos búferes para contener trayectorias reales y trayectorias retrospectivas para reducir el sesgo introducido por las trayectorias retrospectivas en el búfer. Además, utilizamos transiciones de alta recompensa de tareas anteriores para ayudar a la red a adaptarse fácilmente a la nueva tarea. Demostramos el método propuesto en varias tareas de manipulación utilizando un brazo robótico de 7 grados de libertad en RLBench. Los resultados experimentales muestran que el método propuesto supera al SAC básico tanto en un entorno de tarea única como en un entorno de múltiples tareas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro