Un transformador de suplemento de información de parches para la reidentificación de personas
Autores: Zhu, Li; Jiang, Chenglong; Wu, Minghu
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un transformador de suplemento de información de parches para la reidentificación de personas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Características
Imágenes de personas
Redes neuronales convolucionales
Módulos de atención multi-cabeza
Transformador
Suplemento de información de parches al transformador
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
La extracción de características detalladas de las imágenes de personas ha demostrado ser crucial en la reidentificación de personas (re-ID). Aunque la investigación de las redes neuronales convolucionales (CNN) ha tenido mucho éxito en la re-ID de personas, debido al pequeño campo receptivo y a la operación de submuestreo, las CNN existentes no pueden resolver el problema de la pérdida de información. Los módulos de atención de múltiples cabezas en el transformador pueden resolver bien los problemas anteriores. Sin embargo, dado que las operaciones de división destruyen la correlación espacial entre los fragmentos, el transformador aún pierde algunas características locales. En este documento, proponemos el esquema del transformador de suplemento de información de fragmentos (PIT) para extraer características detalladas en la etapa de división. Se introduce la red de pirámide de fragmentos (PPN) para resolver el problema de la pérdida de información local. Esto se logra dividiendo la imagen en diferentes escalas a través de la operación de división y sumándolas de arriba abajo según la estructura de pirámide. Además, insertamos un módulo de incrustación de información de identidad aprendible (IDE) para reducir el sesgo de características de la ropa y la perspectiva de la cámara. Los experimentos verifican la superioridad y efectividad de PIT en comparación con los métodos de vanguardia.
Descripción
La extracción de características detalladas de las imágenes de personas ha demostrado ser crucial en la reidentificación de personas (re-ID). Aunque la investigación de las redes neuronales convolucionales (CNN) ha tenido mucho éxito en la re-ID de personas, debido al pequeño campo receptivo y a la operación de submuestreo, las CNN existentes no pueden resolver el problema de la pérdida de información. Los módulos de atención de múltiples cabezas en el transformador pueden resolver bien los problemas anteriores. Sin embargo, dado que las operaciones de división destruyen la correlación espacial entre los fragmentos, el transformador aún pierde algunas características locales. En este documento, proponemos el esquema del transformador de suplemento de información de fragmentos (PIT) para extraer características detalladas en la etapa de división. Se introduce la red de pirámide de fragmentos (PPN) para resolver el problema de la pérdida de información local. Esto se logra dividiendo la imagen en diferentes escalas a través de la operación de división y sumándolas de arriba abajo según la estructura de pirámide. Además, insertamos un módulo de incrustación de información de identidad aprendible (IDE) para reducir el sesgo de características de la ropa y la perspectiva de la cámara. Los experimentos verifican la superioridad y efectividad de PIT en comparación con los métodos de vanguardia.