Mejorando la estimación de la pose de objetos en 6 grados de libertad a través de la fusión de múltiples modalidades: una arquitectura híbrida de CNN con integración entre capas y entre modalidades
Autores: Wang, Zihang; Sun, Xueying; Wei, Hao; Ma, Qing; Zhang, Qiang
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mejorando la estimación de la pose de objetos en 6 grados de libertad a través de la fusión de múltiples modalidades: una arquitectura híbrida de CNN con integración entre capas y entre modalidades
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Datos rgb-d
Tareas de percepción robótica
Red neuronal convolucional
Segmentación
Estimación de pose
Robustez de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
Recientemente, la aplicación de la utilización de datos RGB-D para tareas de percepción robótica ha atraído una atención significativa en dominios como la robótica y la conducción autónoma. Sin embargo, un desafío prominente en este campo radica en el impacto sustancial de la robustez de las características en las tareas de segmentación y estimación de pose. Para abordar este desafío, propusimos una arquitectura híbrida de red neuronal convolucional (CNN) de dos etapas pionera, que conecta la segmentación y la estimación de pose de manera conjunta. Específicamente, desarrollamos módulos de Modalidad Cruzada (CM) y Capa Cruzada (CL) para explotar la información complementaria de las modalidades RGB y de profundidad, así como las características jerárquicas de diversas capas de la red. La estrategia de integración CM y CL mejoró significativamente la precisión de la segmentación al capturar de manera efectiva la información espacial y contextual. Además, introdujimos el Módulo de Atención de Bloque Convolucional (CBAM), que recalibró dinámicamente los mapas de características, permitiendo que la red se centrara en regiones y canales informativos, mejorando así el rendimiento general de la tarea de estimación de pose. Realizamos extensos experimentos en conjuntos de datos de referencia para evaluar el método propuesto y logramos resultados excepcionales en la estimación de pose objetivo, con una precisión promedio del 94.5% utilizando la métrica ADD-S AUC y un 97.6% de ADD-S menor a 2 cm. Estos resultados demuestran el rendimiento superior de nuestro método propuesto.
Descripción
Recientemente, la aplicación de la utilización de datos RGB-D para tareas de percepción robótica ha atraído una atención significativa en dominios como la robótica y la conducción autónoma. Sin embargo, un desafío prominente en este campo radica en el impacto sustancial de la robustez de las características en las tareas de segmentación y estimación de pose. Para abordar este desafío, propusimos una arquitectura híbrida de red neuronal convolucional (CNN) de dos etapas pionera, que conecta la segmentación y la estimación de pose de manera conjunta. Específicamente, desarrollamos módulos de Modalidad Cruzada (CM) y Capa Cruzada (CL) para explotar la información complementaria de las modalidades RGB y de profundidad, así como las características jerárquicas de diversas capas de la red. La estrategia de integración CM y CL mejoró significativamente la precisión de la segmentación al capturar de manera efectiva la información espacial y contextual. Además, introdujimos el Módulo de Atención de Bloque Convolucional (CBAM), que recalibró dinámicamente los mapas de características, permitiendo que la red se centrara en regiones y canales informativos, mejorando así el rendimiento general de la tarea de estimación de pose. Realizamos extensos experimentos en conjuntos de datos de referencia para evaluar el método propuesto y logramos resultados excepcionales en la estimación de pose objetivo, con una precisión promedio del 94.5% utilizando la métrica ADD-S AUC y un 97.6% de ADD-S menor a 2 cm. Estos resultados demuestran el rendimiento superior de nuestro método propuesto.