logo móvil
Contáctanos

A2TPNet: red de fusión de pirámide trapezoidal de atención dirigida alternativa para la detección de objetos salientes RGB-D

Autores: Duan, Songsong; Gao, Xiuju; Xia, Chenxing; Ge, Bin

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

A2TPNet: red de fusión de pirámide trapezoidal de atención dirigida alternativa para la detección de objetos salientes RGB-D


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Detección de objetos destacados
RGB-D
Características multimodales
Ambigüedad
Red de fusión
Información complementaria

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
La detección de objetos salientes RGB-D (SOD) tiene como objetivo localizar el objeto más llamativo en la entrada visual fusionando información complementaria de la modalidad RGB y la modalidad de profundidad. La mayoría de los métodos existentes de SOD RGB-D integran características multimodales para generar el mapa de saliencia indiscriminadamente, ignorando la ambigüedad entre diferentes modalidades. Para utilizar mejor la información complementaria multimodal y aliviar el impacto negativo de la ambigüedad entre diferentes modalidades, este artículo propone una nueva Red de Fusión de Atención Dirigida Alternativa y Pirámide Trapezoidal (A2TPNet) para SOD RGB-D compuesta por el Módulo de Fusión Alternativa Cruzada (CAFM) y el Módulo de Fusión de Pirámide Trapezoidal (TPFM). CAFM se centra en fusionar características cruzadas modales, teniendo en cuenta completamente la ambigüedad entre los datos cruzados modales mediante una Atención Dirigida Alternativa (ASA), y reduce la interferencia de información redundante y características no salientes en el proceso interactivo a través de un mecanismo de colaboración que contiene atención de canal y atención espacial. TPFM dota al modelo SOD RGB-D de capacidades de expresión de características más potentes al combinar características a múltiples escalas para mejorar la capacidad expresiva de la semántica contextual del modelo. Los extensos resultados experimentales en cinco conjuntos de datos disponibles públicamente demuestran que el modelo propuesto supera consistentemente a 17 métodos de vanguardia.

Otros recursos que podrían interesarte

Temas Virtualpro