logo móvil
Contáctanos

Un red complementario de múltiples contenidos adaptativos para la detección de objetos salientes

Autores: Huo, Lina; Guo, Kaidi; Wang, Wei

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un red complementario de múltiples contenidos adaptativos para la detección de objetos salientes


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Métodos de aprendizaje profundo
Detección de objetos destacados
Bloques codificadores
Red adaptativa de contenido múltiple complementario
PASNet
Transformador visual piramidal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 38

Citaciones: Sin citaciones


Descripción
Los métodos de aprendizaje profundo para la detección de objetos salientes (SOD) han sido estudiados de manera activa y prometedora. Sin embargo, los métodos existentes se centran principalmente en el proceso de decodificación e ignoran las diferencias en las contribuciones de los diferentes bloques codificadores. Para abordar este problema para SOD, proponemos una red adaptativa de contenido múltiple complementario (PASNet) para la detección de objetos salientes que tiene como objetivo explotar completamente la información contextual valiosa en el codificador. A diferencia de los métodos existentes basados en CNN, adoptamos el transformador visual piramidal (PVTv2) como red de base para aprender representaciones globales y locales con su mecanismo de autoatención. Luego, seguimos la estrategia de grueso a fino e introducimos dos módulos novedosos, incluido un módulo avanzado de fusión semántica (ASFM) y un módulo de autorrefinamiento (SRM). Entre estos, el ASFM toma ramas locales y ramas adyacentes como entradas y recopila información semántica y de ubicación de objetos salientes a partir de características de alto nivel para generar un mapa de saliencia grueso inicial. El mapa de saliencia grueso sirve como guía de ubicación para características de bajo nivel, y el SRM se aplica para capturar información detallada disfrazada en características de bajo nivel. Expandimos la información de ubicación con semántica de alto nivel de arriba a abajo a través de la región saliente, que se fusiona de manera efectiva con información detallada a través de la modulación de características. El modelo suprime eficazmente ruidos en las características y mejora significativamente sus capacidades expresivas. Para verificar la efectividad de nuestro PASNet, realizamos experimentos extensos en cinco conjuntos de datos desafiantes, y los resultados muestran que el modelo propuesto es superior a algunos de los métodos actuales más avanzados bajo diferentes métricas de evaluación.

Otros recursos que podrían interesarte

Temas Virtualpro