Swin Transformer basado en pérdida de doble pliegue y reordenamiento de adaptación de fondo para la reidentificación de personas
Autores: Wang, Qi; Huang, Hao; Zhong, Yuling; Min, Weidong; Han, Qing; Xu, Desheng; Xu, Changwen
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Swin Transformer basado en pérdida de doble pliegue y reordenamiento de adaptación de fondo para la reidentificación de personas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reidentificación
Peatón
Fondo
Transformador
Pérdidas
Segmentación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La reidentificación de personas (Re-ID) tiene como objetivo identificar al mismo peatón de un video de vigilancia en diferentes escenarios. Los modelos de Re-ID existentes están sesgados para aprender apariencias de fondo cuando hay muchas variaciones de fondo en el conjunto de entrenamiento de peatones. Por lo tanto, los peatones con la misma identidad aparecerán con diferentes fondos, lo que interfiere con el rendimiento de Re-ID. Este documento propone un transformador swin basado en una pérdida de dos pliegues (TL-TransNet) para prestar más atención a la información semántica del cuerpo de un peatón y preservar información de fondo valiosa, reduciendo así la interferencia de la apariencia de fondo correspondiente. TL-TransNet está supervisado por dos tipos de pérdidas (es decir, pérdida de círculo y pérdida de instancia) durante la fase de entrenamiento. En la fase de recuperación, DeepLabV3+ como modelo de segmentación de fondo de peatones se aplica para generar máscaras corporales en términos de conjunto de consultas y galería. Los resultados de eliminación de fondo se generan de acuerdo con la máscara y se utilizan para filtrar la información de fondo que interfiere. Posteriormente, se diseña un reordenamiento de adaptación de fondo para combinar la información original con la información eliminada de fondo, que descubre más muestras positivas con gran desviación de fondo. Experimentos extensos en dos conjuntos de datos públicos de Re-ID de personas testifican que el método propuesto logra un rendimiento de robustez competitivo en términos del problema de variación de fondo.
Descripción
La reidentificación de personas (Re-ID) tiene como objetivo identificar al mismo peatón de un video de vigilancia en diferentes escenarios. Los modelos de Re-ID existentes están sesgados para aprender apariencias de fondo cuando hay muchas variaciones de fondo en el conjunto de entrenamiento de peatones. Por lo tanto, los peatones con la misma identidad aparecerán con diferentes fondos, lo que interfiere con el rendimiento de Re-ID. Este documento propone un transformador swin basado en una pérdida de dos pliegues (TL-TransNet) para prestar más atención a la información semántica del cuerpo de un peatón y preservar información de fondo valiosa, reduciendo así la interferencia de la apariencia de fondo correspondiente. TL-TransNet está supervisado por dos tipos de pérdidas (es decir, pérdida de círculo y pérdida de instancia) durante la fase de entrenamiento. En la fase de recuperación, DeepLabV3+ como modelo de segmentación de fondo de peatones se aplica para generar máscaras corporales en términos de conjunto de consultas y galería. Los resultados de eliminación de fondo se generan de acuerdo con la máscara y se utilizan para filtrar la información de fondo que interfiere. Posteriormente, se diseña un reordenamiento de adaptación de fondo para combinar la información original con la información eliminada de fondo, que descubre más muestras positivas con gran desviación de fondo. Experimentos extensos en dos conjuntos de datos públicos de Re-ID de personas testifican que el método propuesto logra un rendimiento de robustez competitivo en términos del problema de variación de fondo.