logo móvil
Contáctanos

Método de reidentificación de personas adaptativo de dominio no supervisado basado en Transformer

Autores: Yan, Xiai; Ding, Shengkai; Zhou, Wei; Shi, Weiqi; Tian, Hua

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Método de reidentificación de personas adaptativo de dominio no supervisado basado en Transformer


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Identificación de personas
Características
Transformador de visión
Modelo
ViTReID
CNN

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones


Descripción
La reidentificación de personas (ReID) es el problema de recuperación de objetivos entre cámaras. La extracción de características robustas y discriminantes es el factor clave para lograr la correlación correcta de objetivos. Un modelo basado en redes neuronales convolucionales (CNN) puede extraer características de imagen más robustas, pero completa la extracción de imágenes desde información local hasta información global mediante la acumulación continua de capas convolucionales. Como una CNN compleja, un transformador de visión (ViT) captura información global desde el principio para extraer características más poderosas. Este documento propone un modelo de reidentificación de personas adaptativo de dominio no supervisado (ViTReID) basado en el transformador de visión, tomando el modelo ViT entrenado en ImageNet como el peso de preentrenamiento y un codificador de transformador como la red de extracción de características, lo que compensa algunas defectos del modelo CNN. Al mismo tiempo, se utiliza una función de pérdida combinada de entropía cruzada y función de pérdida triplet combinada con la función de pérdida de centro para optimizar la red; se evalúa y entrena la cabeza de la persona como una característica local combinada con la característica global de todo el cuerpo, centrándose en la cabeza, para mejorar la información de características de la cabeza. Los resultados experimentales muestran que ViTReID supera el método de referencia (SSG) en un 14% (Market1501 MSMT17) en precisión promedio media (mAP). En MSMT17 Market1501, ViTReID tiene un 1.2% más de precisión en rango-1 (R1) que un método de última generación (SPCL); en PersonX MSMT17, el mAP es un 3.1% más alto que el método MMT-dbscan, y en PersonX Market1501, el mAP es un 1.5% más alto que el método MMT-dbscan.

Otros recursos que podrían interesarte

Temas Virtualpro