logo móvil
Contáctanos

Mejorando la estimación de la pose de objetos en 6 grados de libertad a través de la fusión de múltiples modalidades: una arquitectura híbrida de CNN con integración entre capas y entre modalidades

Autores: Wang, Zihang; Sun, Xueying; Wei, Hao; Ma, Qing; Zhang, Qiang

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Mejorando la estimación de la pose de objetos en 6 grados de libertad a través de la fusión de múltiples modalidades: una arquitectura híbrida de CNN con integración entre capas y entre modalidades


Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Datos rgb-d
Tareas de percepción robótica
Red neuronal convolucional
Segmentación
Estimación de pose
Robustez de características

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones


Descripción
Recientemente, la aplicación de la utilización de datos RGB-D para tareas de percepción robótica ha atraído una atención significativa en dominios como la robótica y la conducción autónoma. Sin embargo, un desafío prominente en este campo radica en el impacto sustancial de la robustez de las características en las tareas de segmentación y estimación de pose. Para abordar este desafío, propusimos una arquitectura híbrida de red neuronal convolucional (CNN) de dos etapas pionera, que conecta la segmentación y la estimación de pose de manera conjunta. Específicamente, desarrollamos módulos de Modalidad Cruzada (CM) y Capa Cruzada (CL) para explotar la información complementaria de las modalidades RGB y de profundidad, así como las características jerárquicas de diversas capas de la red. La estrategia de integración CM y CL mejoró significativamente la precisión de la segmentación al capturar de manera efectiva la información espacial y contextual. Además, introdujimos el Módulo de Atención de Bloque Convolucional (CBAM), que recalibró dinámicamente los mapas de características, permitiendo que la red se centrara en regiones y canales informativos, mejorando así el rendimiento general de la tarea de estimación de pose. Realizamos extensos experimentos en conjuntos de datos de referencia para evaluar el método propuesto y logramos resultados excepcionales en la estimación de pose objetivo, con una precisión promedio del 94.5% utilizando la métrica ADD-S AUC y un 97.6% de ADD-S menor a 2 cm. Estos resultados demuestran el rendimiento superior de nuestro método propuesto.

Otros recursos que podrían interesarte

Temas Virtualpro