logo móvil
Contáctanos

MURM: Utilización de Múltiples Vistas para el Aprendizaje por Refuerzo Condicionado por Objetivos en la Manipulación Robótica

Autores: Jang, Seongwon; Jeong, Hyemi; Yang, Hyunseok

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

MURM: Utilización de Múltiples Vistas para el Aprendizaje por Refuerzo Condicionado por Objetivos en la Manipulación Robótica


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Marco novedoso
Aprendizaje por refuerzo unificado de múltiples vistas
Manipulación robótica
MURM
Aprendizaje de representaciones
Aprendizaje por refuerzo offline

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 41

Citaciones: Sin citaciones


Descripción
Presentamos un nuevo marco, aprendizaje por refuerzo unificado de múltiples vistas para la manipulación robótica (MURM), que utiliza de manera eficiente múltiples vistas de cámara para entrenar una política condicionada por objetivos para que un robot realice tareas complejas. El marco MURM consta de tres fases principales: (i) recolección de demostraciones de un experto, (ii) aprendizaje de representaciones y (iii) aprendizaje por refuerzo offline. En la fase de recolección de demostraciones, diseñamos una política de experto programada que utiliza información privilegiada, como las coordenadas cartesianas de un objetivo y meta, para resolver las tareas. Agregamos ruido a la política de experto para proporcionar información interactiva suficiente sobre el entorno, así como trayectorias de comportamiento subóptimas. Diseñamos tres tareas en un entorno de simulación Pybullet, que incluyen colocar un objeto en una posición de meta deseada y recoger varios objetos que están posicionados aleatoriamente en el entorno. En la fase de aprendizaje de representaciones, utilizamos un autoencoder variacional cuantizado por vectores (VQVAE) para aprender una representación latente más estructurada que hace factible el entrenamiento para RL en comparación con imágenes en bruto de alta dimensión. Entrenamos modelos VQVAE para cada vista de cámara distinta y definimos la mejor configuración de puntos de vista para el entrenamiento. En la fase de aprendizaje por refuerzo offline, utilizamos el algoritmo de aprendizaje Q implícito (IQL) como nuestra línea base e introducimos un método de funciones Q separadas y un método de abandono que se puede implementar en configuraciones de múltiples vistas para entrenar la política condicionada por objetivos con imágenes de objetivos supervisadas. Realizamos experimentos en simulación y mostramos que la línea base de vista única no logra resolver tareas complejas, mientras que MURM tiene éxito.

Otros recursos que podrían interesarte

Temas Virtualpro