logo móvil
Contáctanos

TGNF-Net: Red de Fusión de Vecindario Geométrico en Dos Etapas para la Estimación de Pose 6D a Nivel de Categoría

Autores: Zhao, Xiaolong; Yan, Feihu; Zhao, Guangzhe; Wang, Caiyong

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

TGNF-Net: Red de Fusión de Vecindario Geométrico en Dos Etapas para la Estimación de Pose 6D a Nivel de Categoría


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Estimación de pose
Ubicación de objetos
Inteligencia artificial
Niveles de características
Información geométrica
Fusión de vecindario.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El objetivo principal de la estimación de pose en seis dimensiones es determinar con precisión la ubicación y orientación de un objeto en el espacio tridimensional, lo que tiene una amplia gama de aplicaciones en el campo de la inteligencia artificial. Debido a la relativa escasez de los datos de nubes de puntos capturados por la cámara de profundidad, la capacidad de los modelos para comprender completamente la forma, estructura y otras características del objeto se ve obstaculizada. En consecuencia, el modelo exhibe una débil generalización cuando se enfrenta a objetos con diferencias de forma significativas en la nueva escena. La integración profunda de niveles de características y la minería de información local y global pueden aliviar efectivamente la influencia de los factores mencionados. Para resolver estos problemas, proponemos una nueva Red de Fusión de Vecindario Geométrico de Dos Etapas para la estimación de pose 6D a nivel de categoría (TGNF-Net) para estimar objetos que no han aparecido en la fase de entrenamiento, lo que refuerza la capacidad de fusión de puntos de características dentro de un rango específico de vecindarios, permitiendo que los puntos de características sean más sensibles tanto a la información geométrica local como global. Nuestro enfoque incluye un módulo de fusión de información de vecindario, que puede utilizar efectivamente la información de vecindario para enriquecer el conjunto de características de diferentes datos modales y superar el problema de heterogeneidad entre los datos de imagen y nube de puntos. Además de esto, diseñamos un módulo de incrustación de información geométrica de dos etapas, que puede fusionar efectivamente la información geométrica del rango de múltiples escalas en las características de puntos clave. De esta manera, se mejora la robustez del modelo y se permite que el modelo exhiba capacidades de generalización más fuertes cuando se enfrenta a escenas desconocidas o complejas. Estas dos estrategias mejoran la expresión de las características y hacen que las predicciones de coordenadas NOCS sean más precisas. Muchos experimentos muestran que nuestro enfoque es superior a otros métodos clásicos en los conjuntos de datos CAMERA25, REAL275, HouseCat6D y Omni6DPose.

Otros recursos que podrían interesarte

Temas Virtualpro