Htc-grasp: un enfoque híbrido de transformer-cnn para la detección de agarre robótico
Autores: Zhang, Qiang; Zhu, Jianwei; Sun, Xueying; Liu, Mingmin
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Htc-grasp: un enfoque híbrido de transformer-cnn para la detección de agarre robótico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección de áreas de agarre adecuadas
Información visual
Arquitectura híbrida Transformer-CNN
Detección de agarre robótico
HTC-Grasp
Contexto global
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Detectar con precisión áreas de agarre adecuadas para objetos desconocidos a través de información visual sigue siendo una tarea desafiante. Tomando inspiración del éxito del Vision Transformer en la detección visual, se desarrolla la arquitectura híbrida Transformer-CNN para la detección de agarre robótico, conocida como HTC-Grasp, para mejorar la precisión al agarrar objetos desconocidos. La arquitectura emplea un Transformer jerárquico basado en atención externa como codificador para capturar de manera efectiva el contexto global y las características de correlación en todo el conjunto de datos. Además, se presenta un decodificador CNN basado en atención por canal para ajustar de forma adaptativa el peso de los canales en el enfoque, lo que resulta en una agregación de características más eficiente. El método propuesto se valida en los conjuntos de datos de Cornell y Jacquard, logrando una precisión de detección a nivel de imagen del 98.3% y 95.8% en cada conjunto de datos, respectivamente. Además, se logra una precisión de detección a nivel de objeto del 96.9% y 92.4% en los mismos conjuntos de datos basados en este método. También se realiza un experimento físico utilizando el robot Elite 6Dof, con una tasa de precisión de agarre del 93.3%, demostrando la capacidad del método propuesto para agarrar objetos desconocidos en escenarios reales. Los resultados de este estudio indican que el método propuesto supera a otros métodos de vanguardia.
Descripción
Detectar con precisión áreas de agarre adecuadas para objetos desconocidos a través de información visual sigue siendo una tarea desafiante. Tomando inspiración del éxito del Vision Transformer en la detección visual, se desarrolla la arquitectura híbrida Transformer-CNN para la detección de agarre robótico, conocida como HTC-Grasp, para mejorar la precisión al agarrar objetos desconocidos. La arquitectura emplea un Transformer jerárquico basado en atención externa como codificador para capturar de manera efectiva el contexto global y las características de correlación en todo el conjunto de datos. Además, se presenta un decodificador CNN basado en atención por canal para ajustar de forma adaptativa el peso de los canales en el enfoque, lo que resulta en una agregación de características más eficiente. El método propuesto se valida en los conjuntos de datos de Cornell y Jacquard, logrando una precisión de detección a nivel de imagen del 98.3% y 95.8% en cada conjunto de datos, respectivamente. Además, se logra una precisión de detección a nivel de objeto del 96.9% y 92.4% en los mismos conjuntos de datos basados en este método. También se realiza un experimento físico utilizando el robot Elite 6Dof, con una tasa de precisión de agarre del 93.3%, demostrando la capacidad del método propuesto para agarrar objetos desconocidos en escenarios reales. Los resultados de este estudio indican que el método propuesto supera a otros métodos de vanguardia.