logo móvil
Contáctanos

PolyDexFrame: Aprendizaje por Refuerzo Profundo Basado en la Recogida y Colocación de Objetos en Desorden

Autores: Imtiaz, Muhammad Babar; Qiao, Yuansong; Lee, Brian

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

PolyDexFrame: Aprendizaje por Refuerzo Profundo Basado en la Recogida y Colocación de Objetos en Desorden


Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Aprendizaje por refuerzo
Manipulaciones robóticas
Redes neuronales profundas Q
Prehensil
No prehensil
Desorden

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 17

Citaciones: Sin citaciones


Descripción
Este estudio de investigación representa un marco de trabajo de pick-and-place basado en aprendizaje profundo por refuerzo polidextrous para escenarios de desorden industrial. En el marco propuesto, el agente tiende a aprender el pick-and-place de objetos de formas regulares e irregulares en desorden utilizando la combinación secuencial de manipulaciones robóticas prehensiles y no prehensiles que involucran diferentes pinzas robóticas de manera completamente auto-supervisada. El problema se abordó como un problema de aprendizaje por refuerzo; después de diseñar el proceso de decisión de Markov (MDP), se implementó el algoritmo de Q-learning libre de modelo y fuera de política utilizando redes neuronales profundas Q como un aproximador de función Q. Se consideraron cuatro manipulaciones robóticas distintas, es decir, agarre de la categoría de manipulación prehensil y deslizamiento hacia adentro, deslizamiento hacia afuera y agarre por succión de la categoría de manipulación no prehensil como acciones. La función Q comprendía cuatro redes neuronales convolucionales completamente conectadas (FCN) correspondientes a cada acción basadas en variantes de DenseNet-121 eficientes en memoria que generaban mapas de valores de acción a nivel de píxel entrenados conjuntamente a través de la técnica de parametrización a nivel de píxel. Se otorgaron recompensas de acuerdo con el estado de la acción realizada, y se llevó a cabo la retropropagación en consecuencia para la FCN que generaba el valor Q máximo. Los resultados mostraron que el agente aprendió la combinación secuencial de las manipulaciones prehensiles y no prehensiles polidextrous, donde las manipulaciones no prehensiles aumentaron la posibilidad de manipulaciones prehensiles. Logramos resultados prometedores en comparación con las líneas base, variantes diseñadas de manera diferente y pruebas de desorden basadas en densidad.

Otros recursos que podrían interesarte

Temas Virtualpro