Mlbsnet: red de segmentación de objetos salientes RGB-D de aprendizaje mutuo y refuerzo
Autores: Xia, Chenxing; Wang, Jingjing; Ge, Bing
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mlbsnet: red de segmentación de objetos salientes RGB-D de aprendizaje mutuo y refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección de objetos de saliencia
Fallas de fusión
Aprendizaje mutuo
Red de segmentación de refuerzo
Integración de características de múltiples fuentes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
La detección de objetos de saliencia RGB-D (SOD) segmenta principalmente los objetos más salientes de una escena dada fusionando imágenes RGB y mapas de profundidad. Debido al ruido inherente en el mapa de profundidad original, pueden ocurrir fallos en la fusión, lo que lleva a cuellos de botella en el rendimiento. Para abordar este problema, este artículo propone una red de segmentación de aprendizaje mutuo y potenciación (MLBSNet) para la detección de objetos de saliencia RGB-D, que consta de un módulo de optimización profunda (DOM), un módulo de alineación semántica (SAM), un módulo de integración cruzada (CMI) y un decodificador de reconstrucción separado (SRD). Específicamente, el módulo de optimización profunda tiene como objetivo obtener información de profundidad óptima aprendiendo la similitud entre los mapas de profundidad originales y predichos. Para eliminar la incertidumbre de las características vecinas unimodales y capturar las características complementarias de múltiples modalidades, se introducen un módulo de alineación semántica y un módulo de integración cruzada. Finalmente, se construye un decodificador de reconstrucción separado basado en un mecanismo de integración de características de múltiples fuentes para superar la pérdida de precisión causada por la segmentación. A través de experimentos comparativos, nuestro método supera a 13 métodos existentes en cinco conjuntos de datos RGB-D y logra un excelente rendimiento en cuatro métricas de evaluación.
Descripción
La detección de objetos de saliencia RGB-D (SOD) segmenta principalmente los objetos más salientes de una escena dada fusionando imágenes RGB y mapas de profundidad. Debido al ruido inherente en el mapa de profundidad original, pueden ocurrir fallos en la fusión, lo que lleva a cuellos de botella en el rendimiento. Para abordar este problema, este artículo propone una red de segmentación de aprendizaje mutuo y potenciación (MLBSNet) para la detección de objetos de saliencia RGB-D, que consta de un módulo de optimización profunda (DOM), un módulo de alineación semántica (SAM), un módulo de integración cruzada (CMI) y un decodificador de reconstrucción separado (SRD). Específicamente, el módulo de optimización profunda tiene como objetivo obtener información de profundidad óptima aprendiendo la similitud entre los mapas de profundidad originales y predichos. Para eliminar la incertidumbre de las características vecinas unimodales y capturar las características complementarias de múltiples modalidades, se introducen un módulo de alineación semántica y un módulo de integración cruzada. Finalmente, se construye un decodificador de reconstrucción separado basado en un mecanismo de integración de características de múltiples fuentes para superar la pérdida de precisión causada por la segmentación. A través de experimentos comparativos, nuestro método supera a 13 métodos existentes en cinco conjuntos de datos RGB-D y logra un excelente rendimiento en cuatro métricas de evaluación.