Mejorando la estimación de la pose de objetos en 6 grados de libertad a través de la fusión de múltiples modalidades: una arquitectura híbrida de CNN con integración entre capas y entre modalidades

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando la estimación de la pose de objetos en 6 grados de libertad a través de la fusión de múltiples modalidades: una arquitectura híbrida de CNN con integración entre capas y entre modalidades

Autores: Wang, Zihang; Sun, Xueying; Wei, Hao; Ma, Qing; Zhang, Qiang

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Datos rgb-d

Tareas de percepción robótica

Red neuronal convolucional

Segmentación

Estimación de pose

Robustez de características

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones

Recientemente, la aplicación de la utilización de datos RGB-D para tareas de percepción robótica ha atraído una atención significativa en dominios como la robótica y la conducción autónoma. Sin embargo, un desafío prominente en este campo radica en el impacto sustancial de la robustez de las características en las tareas de segmentación y estimación de pose. Para abordar este desafío, propusimos una arquitectura híbrida de red neuronal convolucional (CNN) de dos etapas pionera, que conecta la segmentación y la estimación de pose de manera conjunta. Específicamente, desarrollamos módulos de Modalidad Cruzada (CM) y Capa Cruzada (CL) para explotar la información complementaria de las modalidades RGB y de profundidad, así como las características jerárquicas de diversas capas de la red. La estrategia de integración CM y CL mejoró significativamente la precisión de la segmentación al capturar de manera efectiva la información espacial y contextual. Además, introdujimos el Módulo de Atención de Bloque Convolucional (CBAM), que recalibró dinámicamente los mapas de características, permitiendo que la red se centrara en regiones y canales informativos, mejorando así el rendimiento general de la tarea de estimación de pose. Realizamos extensos experimentos en conjuntos de datos de referencia para evaluar el método propuesto y logramos resultados excepcionales en la estimación de pose objetivo, con una precisión promedio del 94.5% utilizando la métrica ADD-S AUC y un 97.6% de ADD-S menor a 2 cm. Estos resultados demuestran el rendimiento superior de nuestro método propuesto.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro