Mejora de características de profundidad guiada por RGB para la detección de objetos salientes RGB-profundidad
Autores: Zeng, Zhihong; He, Jiahao; Zhan, Yue; Liu, Haijun; Tan, Xiaoheng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mejora de características de profundidad guiada por RGB para la detección de objetos salientes RGB-profundidad
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección de objetos destacados
RGB-D
Datos de profundidad
Generación de características de profundidad pseudo
CFM
PDFNet
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
La detección de objetos salientes (SOD) RGB-D (profundidad) busca identificar y segmentar los objetos más visualmente llamativos dentro de una escena dada. Los datos de profundidad, conocidos por su fuerte capacidad discriminativa en la localización espacial, proporcionan una ventaja en lograr una SOD RGB-D precisa. Sin embargo, la investigación reciente en este campo ha enfrentado desafíos significativos debido a las pobres cualidades visuales y señales perturbadoras en los mapas de profundidad sin procesar. Este problema resulta en características de profundidad indistintas o ambiguas, lo que debilita consecuentemente el rendimiento de la SOD RGB-D. Para abordar este problema, proponemos una Red de SOD RGB-D basada en la generación de características de profundidad pseudo, denominada PDFNet, que puede generar algunas características de profundidad pseudo nuevas y más distintivas como una fuente suplementaria adicional para mejorar las características de profundidad sin procesar. Específicamente, primero introducimos una subred de generación de características de profundidad pseudo guiada por RGB para sintetizar características de profundidad pseudo más distintivas para el mejoramiento de las características de profundidad sin procesar, dado que el poder discriminativo de las características de profundidad juega un papel fundamental en proporcionar contornos efectivos y señales espaciales. Luego, proponemos una fusión cruzada modal (CFM) para fusionar de manera efectiva las características RGB, las características de profundidad sin procesar y las características de profundidad pseudo generadas. Adoptamos una estrategia de selección de canales dentro del módulo CFM para alinear las características de profundidad pseudo con las características de profundidad sin procesar, mejorando así las características de profundidad. Probamos el PDFNet propuesto en seis conjuntos de datos de referencia comúnmente utilizados para SOD RGB-D. Los extensos resultados experimentales validan que el enfoque propuesto logra un rendimiento superior. Por ejemplo, en comparación con el método de vanguardia anterior, AirSOD, nuestro método mejora la medida F en un 2%, 1.7%, 1.1% y 2.2% en los conjuntos de datos STERE, DUTLF-D, NLPR y NJU2K, respectivamente.
Descripción
La detección de objetos salientes (SOD) RGB-D (profundidad) busca identificar y segmentar los objetos más visualmente llamativos dentro de una escena dada. Los datos de profundidad, conocidos por su fuerte capacidad discriminativa en la localización espacial, proporcionan una ventaja en lograr una SOD RGB-D precisa. Sin embargo, la investigación reciente en este campo ha enfrentado desafíos significativos debido a las pobres cualidades visuales y señales perturbadoras en los mapas de profundidad sin procesar. Este problema resulta en características de profundidad indistintas o ambiguas, lo que debilita consecuentemente el rendimiento de la SOD RGB-D. Para abordar este problema, proponemos una Red de SOD RGB-D basada en la generación de características de profundidad pseudo, denominada PDFNet, que puede generar algunas características de profundidad pseudo nuevas y más distintivas como una fuente suplementaria adicional para mejorar las características de profundidad sin procesar. Específicamente, primero introducimos una subred de generación de características de profundidad pseudo guiada por RGB para sintetizar características de profundidad pseudo más distintivas para el mejoramiento de las características de profundidad sin procesar, dado que el poder discriminativo de las características de profundidad juega un papel fundamental en proporcionar contornos efectivos y señales espaciales. Luego, proponemos una fusión cruzada modal (CFM) para fusionar de manera efectiva las características RGB, las características de profundidad sin procesar y las características de profundidad pseudo generadas. Adoptamos una estrategia de selección de canales dentro del módulo CFM para alinear las características de profundidad pseudo con las características de profundidad sin procesar, mejorando así las características de profundidad. Probamos el PDFNet propuesto en seis conjuntos de datos de referencia comúnmente utilizados para SOD RGB-D. Los extensos resultados experimentales validan que el enfoque propuesto logra un rendimiento superior. Por ejemplo, en comparación con el método de vanguardia anterior, AirSOD, nuestro método mejora la medida F en un 2%, 1.7%, 1.1% y 2.2% en los conjuntos de datos STERE, DUTLF-D, NLPR y NJU2K, respectivamente.