Un nuevo método de estimación de pose basado en aprendizaje profundo para la agarre robótico de cuerpos axisimétricos en escenarios industriales apilados
Autores: Li, Yaowei; Guo, Fei; Zhang, Miaotian; Suo, Shuangfu; An, Qi; Li, Jinlin; Wang, Yang
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un nuevo método de estimación de pose basado en aprendizaje profundo para la agarre robótico de cuerpos axisimétricos en escenarios industriales apilados
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Visión basada
Agarre robótico
Estimación de pose
Aprendizaje profundo
Red neuronal convolucional
Detección de objetos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
Un sistema de agarre robótico inteligente basado en visión es esencial para realizar operaciones no tripuladas en la fabricación industrial, y la estimación de pose juega un papel importante en este sistema. En este estudio, se utilizó el aprendizaje profundo para obtener la pose 6D de un cuerpo axisimétrico que era óptima para el agarre robótico en escenarios industriales apilados. Proponemos un método para obtener la pose 6D de un cuerpo axisimétrico detectando los puntos clave predefinidos en la superficie lateral. Para realizar este método y resolver otros desafíos en escenarios industriales apilados, proponemos una red neuronal convolucional (CNN) multitarea en tiempo real, llamada Key-Yolact, que involucra detección de objetos, segmentación de instancias y detección de puntos clave 2D de múltiples objetos. Se diseñó una pequeña CNN como subsistema de toma de decisiones para puntuar múltiples predicciones de Key-Yolact, y el cuerpo con la puntuación más alta se considera el mejor para el agarre. Los experimentos en un conjunto de datos apilados autoconstruido mostraron que Key-Yolact tiene un compromiso práctico entre velocidad de inferencia y precisión. La velocidad de inferencia de Key-Yolact es superior en 10 FPS, mientras que su precisión disminuye solo un 7% en comparación con el clásico Keypoint R-CNN multitarea. Los experimentos de agarre robótico mostraron que el diseño propuesto es efectivo y puede aplicarse directamente a escenarios industriales.
Descripción
Un sistema de agarre robótico inteligente basado en visión es esencial para realizar operaciones no tripuladas en la fabricación industrial, y la estimación de pose juega un papel importante en este sistema. En este estudio, se utilizó el aprendizaje profundo para obtener la pose 6D de un cuerpo axisimétrico que era óptima para el agarre robótico en escenarios industriales apilados. Proponemos un método para obtener la pose 6D de un cuerpo axisimétrico detectando los puntos clave predefinidos en la superficie lateral. Para realizar este método y resolver otros desafíos en escenarios industriales apilados, proponemos una red neuronal convolucional (CNN) multitarea en tiempo real, llamada Key-Yolact, que involucra detección de objetos, segmentación de instancias y detección de puntos clave 2D de múltiples objetos. Se diseñó una pequeña CNN como subsistema de toma de decisiones para puntuar múltiples predicciones de Key-Yolact, y el cuerpo con la puntuación más alta se considera el mejor para el agarre. Los experimentos en un conjunto de datos apilados autoconstruido mostraron que Key-Yolact tiene un compromiso práctico entre velocidad de inferencia y precisión. La velocidad de inferencia de Key-Yolact es superior en 10 FPS, mientras que su precisión disminuye solo un 7% en comparación con el clásico Keypoint R-CNN multitarea. Los experimentos de agarre robótico mostraron que el diseño propuesto es efectivo y puede aplicarse directamente a escenarios industriales.