TGNF-Net: Red de Fusión de Vecindario Geométrico en Dos Etapas para la Estimación de Pose 6D a Nivel de Categoría
Autores: Zhao, Xiaolong; Yan, Feihu; Zhao, Guangzhe; Wang, Caiyong
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
TGNF-Net: Red de Fusión de Vecindario Geométrico en Dos Etapas para la Estimación de Pose 6D a Nivel de Categoría
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Estimación de pose
Ubicación de objetos
Inteligencia artificial
Niveles de características
Información geométrica
Fusión de vecindario.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El objetivo principal de la estimación de pose en seis dimensiones es determinar con precisión la ubicación y orientación de un objeto en el espacio tridimensional, lo que tiene una amplia gama de aplicaciones en el campo de la inteligencia artificial. Debido a la relativa escasez de los datos de nubes de puntos capturados por la cámara de profundidad, la capacidad de los modelos para comprender completamente la forma, estructura y otras características del objeto se ve obstaculizada. En consecuencia, el modelo exhibe una débil generalización cuando se enfrenta a objetos con diferencias de forma significativas en la nueva escena. La integración profunda de niveles de características y la minería de información local y global pueden aliviar efectivamente la influencia de los factores mencionados. Para resolver estos problemas, proponemos una nueva Red de Fusión de Vecindario Geométrico de Dos Etapas para la estimación de pose 6D a nivel de categoría (TGNF-Net) para estimar objetos que no han aparecido en la fase de entrenamiento, lo que refuerza la capacidad de fusión de puntos de características dentro de un rango específico de vecindarios, permitiendo que los puntos de características sean más sensibles tanto a la información geométrica local como global. Nuestro enfoque incluye un módulo de fusión de información de vecindario, que puede utilizar efectivamente la información de vecindario para enriquecer el conjunto de características de diferentes datos modales y superar el problema de heterogeneidad entre los datos de imagen y nube de puntos. Además de esto, diseñamos un módulo de incrustación de información geométrica de dos etapas, que puede fusionar efectivamente la información geométrica del rango de múltiples escalas en las características de puntos clave. De esta manera, se mejora la robustez del modelo y se permite que el modelo exhiba capacidades de generalización más fuertes cuando se enfrenta a escenas desconocidas o complejas. Estas dos estrategias mejoran la expresión de las características y hacen que las predicciones de coordenadas NOCS sean más precisas. Muchos experimentos muestran que nuestro enfoque es superior a otros métodos clásicos en los conjuntos de datos CAMERA25, REAL275, HouseCat6D y Omni6DPose.
Descripción
El objetivo principal de la estimación de pose en seis dimensiones es determinar con precisión la ubicación y orientación de un objeto en el espacio tridimensional, lo que tiene una amplia gama de aplicaciones en el campo de la inteligencia artificial. Debido a la relativa escasez de los datos de nubes de puntos capturados por la cámara de profundidad, la capacidad de los modelos para comprender completamente la forma, estructura y otras características del objeto se ve obstaculizada. En consecuencia, el modelo exhibe una débil generalización cuando se enfrenta a objetos con diferencias de forma significativas en la nueva escena. La integración profunda de niveles de características y la minería de información local y global pueden aliviar efectivamente la influencia de los factores mencionados. Para resolver estos problemas, proponemos una nueva Red de Fusión de Vecindario Geométrico de Dos Etapas para la estimación de pose 6D a nivel de categoría (TGNF-Net) para estimar objetos que no han aparecido en la fase de entrenamiento, lo que refuerza la capacidad de fusión de puntos de características dentro de un rango específico de vecindarios, permitiendo que los puntos de características sean más sensibles tanto a la información geométrica local como global. Nuestro enfoque incluye un módulo de fusión de información de vecindario, que puede utilizar efectivamente la información de vecindario para enriquecer el conjunto de características de diferentes datos modales y superar el problema de heterogeneidad entre los datos de imagen y nube de puntos. Además de esto, diseñamos un módulo de incrustación de información geométrica de dos etapas, que puede fusionar efectivamente la información geométrica del rango de múltiples escalas en las características de puntos clave. De esta manera, se mejora la robustez del modelo y se permite que el modelo exhiba capacidades de generalización más fuertes cuando se enfrenta a escenas desconocidas o complejas. Estas dos estrategias mejoran la expresión de las características y hacen que las predicciones de coordenadas NOCS sean más precisas. Muchos experimentos muestran que nuestro enfoque es superior a otros métodos clásicos en los conjuntos de datos CAMERA25, REAL275, HouseCat6D y Omni6DPose.