Un red complementario de múltiples contenidos adaptativos para la detección de objetos salientes
Autores: Huo, Lina; Guo, Kaidi; Wang, Wei
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un red complementario de múltiples contenidos adaptativos para la detección de objetos salientes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Métodos de aprendizaje profundo
Detección de objetos destacados
Bloques codificadores
Red adaptativa de contenido múltiple complementario
PASNet
Transformador visual piramidal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
Los métodos de aprendizaje profundo para la detección de objetos salientes (SOD) han sido estudiados de manera activa y prometedora. Sin embargo, los métodos existentes se centran principalmente en el proceso de decodificación e ignoran las diferencias en las contribuciones de los diferentes bloques codificadores. Para abordar este problema para SOD, proponemos una red adaptativa de contenido múltiple complementario (PASNet) para la detección de objetos salientes que tiene como objetivo explotar completamente la información contextual valiosa en el codificador. A diferencia de los métodos existentes basados en CNN, adoptamos el transformador visual piramidal (PVTv2) como red de base para aprender representaciones globales y locales con su mecanismo de autoatención. Luego, seguimos la estrategia de grueso a fino e introducimos dos módulos novedosos, incluido un módulo avanzado de fusión semántica (ASFM) y un módulo de autorrefinamiento (SRM). Entre estos, el ASFM toma ramas locales y ramas adyacentes como entradas y recopila información semántica y de ubicación de objetos salientes a partir de características de alto nivel para generar un mapa de saliencia grueso inicial. El mapa de saliencia grueso sirve como guía de ubicación para características de bajo nivel, y el SRM se aplica para capturar información detallada disfrazada en características de bajo nivel. Expandimos la información de ubicación con semántica de alto nivel de arriba a abajo a través de la región saliente, que se fusiona de manera efectiva con información detallada a través de la modulación de características. El modelo suprime eficazmente ruidos en las características y mejora significativamente sus capacidades expresivas. Para verificar la efectividad de nuestro PASNet, realizamos experimentos extensos en cinco conjuntos de datos desafiantes, y los resultados muestran que el modelo propuesto es superior a algunos de los métodos actuales más avanzados bajo diferentes métricas de evaluación.
Descripción
Los métodos de aprendizaje profundo para la detección de objetos salientes (SOD) han sido estudiados de manera activa y prometedora. Sin embargo, los métodos existentes se centran principalmente en el proceso de decodificación e ignoran las diferencias en las contribuciones de los diferentes bloques codificadores. Para abordar este problema para SOD, proponemos una red adaptativa de contenido múltiple complementario (PASNet) para la detección de objetos salientes que tiene como objetivo explotar completamente la información contextual valiosa en el codificador. A diferencia de los métodos existentes basados en CNN, adoptamos el transformador visual piramidal (PVTv2) como red de base para aprender representaciones globales y locales con su mecanismo de autoatención. Luego, seguimos la estrategia de grueso a fino e introducimos dos módulos novedosos, incluido un módulo avanzado de fusión semántica (ASFM) y un módulo de autorrefinamiento (SRM). Entre estos, el ASFM toma ramas locales y ramas adyacentes como entradas y recopila información semántica y de ubicación de objetos salientes a partir de características de alto nivel para generar un mapa de saliencia grueso inicial. El mapa de saliencia grueso sirve como guía de ubicación para características de bajo nivel, y el SRM se aplica para capturar información detallada disfrazada en características de bajo nivel. Expandimos la información de ubicación con semántica de alto nivel de arriba a abajo a través de la región saliente, que se fusiona de manera efectiva con información detallada a través de la modulación de características. El modelo suprime eficazmente ruidos en las características y mejora significativamente sus capacidades expresivas. Para verificar la efectividad de nuestro PASNet, realizamos experimentos extensos en cinco conjuntos de datos desafiantes, y los resultados muestran que el modelo propuesto es superior a algunos de los métodos actuales más avanzados bajo diferentes métricas de evaluación.