MURM: Utilización de Múltiples Vistas para el Aprendizaje por Refuerzo Condicionado por Objetivos en la Manipulación Robótica
Autores: Jang, Seongwon; Jeong, Hyemi; Yang, Hyunseok
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
MURM: Utilización de Múltiples Vistas para el Aprendizaje por Refuerzo Condicionado por Objetivos en la Manipulación Robótica
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Marco novedoso
Aprendizaje por refuerzo unificado de múltiples vistas
Manipulación robótica
MURM
Aprendizaje de representaciones
Aprendizaje por refuerzo offline
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
Presentamos un nuevo marco, aprendizaje por refuerzo unificado de múltiples vistas para la manipulación robótica (MURM), que utiliza de manera eficiente múltiples vistas de cámara para entrenar una política condicionada por objetivos para que un robot realice tareas complejas. El marco MURM consta de tres fases principales: (i) recolección de demostraciones de un experto, (ii) aprendizaje de representaciones y (iii) aprendizaje por refuerzo offline. En la fase de recolección de demostraciones, diseñamos una política de experto programada que utiliza información privilegiada, como las coordenadas cartesianas de un objetivo y meta, para resolver las tareas. Agregamos ruido a la política de experto para proporcionar información interactiva suficiente sobre el entorno, así como trayectorias de comportamiento subóptimas. Diseñamos tres tareas en un entorno de simulación Pybullet, que incluyen colocar un objeto en una posición de meta deseada y recoger varios objetos que están posicionados aleatoriamente en el entorno. En la fase de aprendizaje de representaciones, utilizamos un autoencoder variacional cuantizado por vectores (VQVAE) para aprender una representación latente más estructurada que hace factible el entrenamiento para RL en comparación con imágenes en bruto de alta dimensión. Entrenamos modelos VQVAE para cada vista de cámara distinta y definimos la mejor configuración de puntos de vista para el entrenamiento. En la fase de aprendizaje por refuerzo offline, utilizamos el algoritmo de aprendizaje Q implícito (IQL) como nuestra línea base e introducimos un método de funciones Q separadas y un método de abandono que se puede implementar en configuraciones de múltiples vistas para entrenar la política condicionada por objetivos con imágenes de objetivos supervisadas. Realizamos experimentos en simulación y mostramos que la línea base de vista única no logra resolver tareas complejas, mientras que MURM tiene éxito.
Descripción
Presentamos un nuevo marco, aprendizaje por refuerzo unificado de múltiples vistas para la manipulación robótica (MURM), que utiliza de manera eficiente múltiples vistas de cámara para entrenar una política condicionada por objetivos para que un robot realice tareas complejas. El marco MURM consta de tres fases principales: (i) recolección de demostraciones de un experto, (ii) aprendizaje de representaciones y (iii) aprendizaje por refuerzo offline. En la fase de recolección de demostraciones, diseñamos una política de experto programada que utiliza información privilegiada, como las coordenadas cartesianas de un objetivo y meta, para resolver las tareas. Agregamos ruido a la política de experto para proporcionar información interactiva suficiente sobre el entorno, así como trayectorias de comportamiento subóptimas. Diseñamos tres tareas en un entorno de simulación Pybullet, que incluyen colocar un objeto en una posición de meta deseada y recoger varios objetos que están posicionados aleatoriamente en el entorno. En la fase de aprendizaje de representaciones, utilizamos un autoencoder variacional cuantizado por vectores (VQVAE) para aprender una representación latente más estructurada que hace factible el entrenamiento para RL en comparación con imágenes en bruto de alta dimensión. Entrenamos modelos VQVAE para cada vista de cámara distinta y definimos la mejor configuración de puntos de vista para el entrenamiento. En la fase de aprendizaje por refuerzo offline, utilizamos el algoritmo de aprendizaje Q implícito (IQL) como nuestra línea base e introducimos un método de funciones Q separadas y un método de abandono que se puede implementar en configuraciones de múltiples vistas para entrenar la política condicionada por objetivos con imágenes de objetivos supervisadas. Realizamos experimentos en simulación y mostramos que la línea base de vista única no logra resolver tareas complejas, mientras que MURM tiene éxito.