logo móvil
Contáctanos

Un transformador integrado con minería de tokens colaborativos para reconocimiento detallado

Autores: Yang, Weiwei; Yin, Jian

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un transformador integrado con minería de tokens colaborativos para reconocimiento detallado


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento detallado
Imágenes de subclase
Regiones discriminativas
Aprendizaje por refuerzo multinivel
Arquitectura base
Transformador con extracción colaborativa de tokens

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 41

Citaciones: Sin citaciones


Descripción
El reconocimiento detallado clasifica principalmente imágenes de subclases en cientos de etiquetas subcategóricas ubicando las regiones discriminativas (por ejemplo, pájaro reinita de Cabo May o pájaro reinita magnolia). Debido a la alta complejidad y falta de diferenciación de las ubicaciones de las regiones a través de la arquitectura tradicional de base, la mayoría de los enfoques existentes utilizan el aprendizaje por refuerzo multinivel para distinguir la apariencia similar entre subcategorías. Estos métodos exploran información incompleta a través de las regiones informativas intraclase en una imagen o la relación interclase e intraclase en imágenes pareadas, lo que lleva a la tendencia de ubicaciones de regiones superpuestas. Dado que las correlaciones interclase y la nueva base con información semántica contextual completa juegan un papel importante en distinguir las clases detalladas, proponemos un nuevo transformador con el esquema de minería de token colaborativo (TCTM) al explotar completamente las relaciones entre regiones interclase e intraclase. El esquema TCTM propuesto con una nueva base de transformador consta de dos módulos que exploran colaborativamente los tokens con conciencia espacial: el módulo de Multiplicación de Tokens Piramidales (PTM), que explota las correlaciones integradas interclase e intraclase de múltiples etapas de la nueva arquitectura de transformador, y el módulo de Generación de Propuestas de Tokens (TPG), que captura dos grupos de los cuatro mejores tokens discriminativos. Los dos PTM extraen tokens contrastivos para cada imagen y aprenden a clasificar estos tokens, asumiendo que aquellos de la misma clase y del mismo módulo deberían tener distancias más pequeñas. Los TPGs ordenan y actualizan aún más los tokens candidatos de los tokens de atención extraídos clasificando sus probabilidades con las etiquetas subcategóricas de verdad. A través de la colaboración entre el PTM y el TPG, nuestro esquema TCTM puede tener en cuenta las correlaciones integradas y extraer los tokens discriminativos para la clasificación detallada final. Experimentos extensos en cuatro benchmarks populares muestran que nuestro TCTM propuesto supera ampliamente a los métodos de vanguardia.

Otros recursos que podrían interesarte

Temas Virtualpro