MURM: Utilización de Múltiples Vistas para el Aprendizaje por Refuerzo Condicionado por Objetivos en la Manipulación Robótica

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

MURM: Utilización de Múltiples Vistas para el Aprendizaje por Refuerzo Condicionado por Objetivos en la Manipulación Robótica

Autores: Jang, Seongwon; Jeong, Hyemi; Yang, Hyunseok

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

MURM: Utilización de Múltiples Vistas para el Aprendizaje por Refuerzo Condicionado por Objetivos en la Manipulación Robótica

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Marco novedoso

Aprendizaje por refuerzo unificado de múltiples vistas

Manipulación robótica

MURM

Aprendizaje de representaciones

Aprendizaje por refuerzo offline

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 41

Citaciones: Sin citaciones

Presentamos un nuevo marco, aprendizaje por refuerzo unificado de múltiples vistas para la manipulación robótica (MURM), que utiliza de manera eficiente múltiples vistas de cámara para entrenar una política condicionada por objetivos para que un robot realice tareas complejas. El marco MURM consta de tres fases principales: (i) recolección de demostraciones de un experto, (ii) aprendizaje de representaciones y (iii) aprendizaje por refuerzo offline. En la fase de recolección de demostraciones, diseñamos una política de experto programada que utiliza información privilegiada, como las coordenadas cartesianas de un objetivo y meta, para resolver las tareas. Agregamos ruido a la política de experto para proporcionar información interactiva suficiente sobre el entorno, así como trayectorias de comportamiento subóptimas. Diseñamos tres tareas en un entorno de simulación Pybullet, que incluyen colocar un objeto en una posición de meta deseada y recoger varios objetos que están posicionados aleatoriamente en el entorno. En la fase de aprendizaje de representaciones, utilizamos un autoencoder variacional cuantizado por vectores (VQVAE) para aprender una representación latente más estructurada que hace factible el entrenamiento para RL en comparación con imágenes en bruto de alta dimensión. Entrenamos modelos VQVAE para cada vista de cámara distinta y definimos la mejor configuración de puntos de vista para el entrenamiento. En la fase de aprendizaje por refuerzo offline, utilizamos el algoritmo de aprendizaje Q implícito (IQL) como nuestra línea base e introducimos un método de funciones Q separadas y un método de abandono que se puede implementar en configuraciones de múltiples vistas para entrenar la política condicionada por objetivos con imágenes de objetivos supervisadas. Realizamos experimentos en simulación y mostramos que la línea base de vista única no logra resolver tareas complejas, mientras que MURM tiene éxito.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro