Pipeline de Clasificación de Objetos y Estimación de Posición Basado en Aprendizaje Profundo para Uso Potencial en Operaciones Robotizadas de Recogida y Colocación
Autores: Soltan, Sergey; Oleinikov, Artemiy; Demirci, M. Fatih; Shintemirov, Almas
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Pipeline de Clasificación de Objetos y Estimación de Posición Basado en Aprendizaje Profundo para Uso Potencial en Operaciones Robotizadas de Recogida y Colocación
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Clasificación de objetos
Estimación de posición
Operaciones autónomas de recogida y colocación
Sensores RGB-D
Técnicas de aprendizaje profundo
Aplicaciones en tiempo real
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La clasificación precisa de objetos y la estimación de posición son una parte crucial de la ejecución de operaciones autónomas de recogida y colocación por un robot y se pueden realizar utilizando sensores RGB-D que están cada vez más disponibles para su uso en aplicaciones industriales. En este artículo, presentamos un nuevo marco unificado para la detección y clasificación de objetos utilizando una combinación de procesamiento de nubes de puntos y técnicas de aprendizaje profundo. El modelo propuesto utiliza dos flujos que reconocen objetos en datos RGB y de profundidad por separado y combina ambos en etapas posteriores para clasificar los objetos. La evaluación experimental del modelo propuesto, incluida la precisión de clasificación en comparación con trabajos anteriores, demuestra su efectividad y eficiencia, haciendo que el modelo sea adecuado para aplicaciones en tiempo real. En particular, los experimentos realizados en el conjunto de datos de objetos RGB-D de Washington muestran que el marco propuesto tiene un 97.5% y un 95% menos de parámetros en comparación con las redes neuronales multimodales de última generación Fus-CNN, CNN Features y VGG3D, respectivamente, con un costo de aproximadamente un 5% de disminución en la precisión de clasificación. Además, la inferencia del marco propuesto toma un 66.11%, un 32.65% y un 28.77% menos de tiempo en GPU y un 86.91%, un 51.12% y un 50.15% menos de tiempo en CPU en comparación con VGG3D, Fus-CNN y CNN Features. La aplicabilidad potencial del marco desarrollado para la clasificación de objetos y la estimación de posición se demostró en un montaje experimental de manipulación robótica que realiza un escenario simplificado de recogida y colocación de objetos. En aproximadamente el 95% de las pruebas, el sistema pudo posicionar con precisión el robot sobre los objetos de interés detectados en modo automático, asegurando una ejecución cíclica estable sin retrasos de tiempo.
Descripción
La clasificación precisa de objetos y la estimación de posición son una parte crucial de la ejecución de operaciones autónomas de recogida y colocación por un robot y se pueden realizar utilizando sensores RGB-D que están cada vez más disponibles para su uso en aplicaciones industriales. En este artículo, presentamos un nuevo marco unificado para la detección y clasificación de objetos utilizando una combinación de procesamiento de nubes de puntos y técnicas de aprendizaje profundo. El modelo propuesto utiliza dos flujos que reconocen objetos en datos RGB y de profundidad por separado y combina ambos en etapas posteriores para clasificar los objetos. La evaluación experimental del modelo propuesto, incluida la precisión de clasificación en comparación con trabajos anteriores, demuestra su efectividad y eficiencia, haciendo que el modelo sea adecuado para aplicaciones en tiempo real. En particular, los experimentos realizados en el conjunto de datos de objetos RGB-D de Washington muestran que el marco propuesto tiene un 97.5% y un 95% menos de parámetros en comparación con las redes neuronales multimodales de última generación Fus-CNN, CNN Features y VGG3D, respectivamente, con un costo de aproximadamente un 5% de disminución en la precisión de clasificación. Además, la inferencia del marco propuesto toma un 66.11%, un 32.65% y un 28.77% menos de tiempo en GPU y un 86.91%, un 51.12% y un 50.15% menos de tiempo en CPU en comparación con VGG3D, Fus-CNN y CNN Features. La aplicabilidad potencial del marco desarrollado para la clasificación de objetos y la estimación de posición se demostró en un montaje experimental de manipulación robótica que realiza un escenario simplificado de recogida y colocación de objetos. En aproximadamente el 95% de las pruebas, el sistema pudo posicionar con precisión el robot sobre los objetos de interés detectados en modo automático, asegurando una ejecución cíclica estable sin retrasos de tiempo.