Progresivo aprendizaje de características discriminativas para la reidentificación de personas visible-infrarrojo
Autores: Zhou, Feng; Cheng, Zhuxuan; Yang, Haitao; Song, Yifeng; Fu, Shengpeng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Progresivo aprendizaje de características discriminativas para la reidentificación de personas visible-infrarrojo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reidentificación de personas
Características discriminativas
Alineación de modalidades
Aprendizaje progresivo de características
Información de identidad
Optimización de múltiples pérdidas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
La tarea de reidentificación de personas visible-infrarrojo (VI-ReID) tiene como objetivo recuperar la misma persona entre imágenes visibles e infrarrojas. VI-ReID es una tarea desafiante debido a la gran discrepancia de modalidad y a las complejas variaciones intra-modalidad. Los trabajos existentes principalmente completan la alineación de modalidades en una etapa. Sin embargo, alinear modalidades en diferentes etapas tiene efectos positivos en las distancias intraclase e interclase de las características de cruce de modalidad, que a menudo son ignoradas. Además, las características discriminativas con información de identidad pueden corromperse en el procesamiento de la alineación de modalidad, degradando aún más el rendimiento de la reidentificación de personas. En este documento, proponemos una red de aprendizaje de características discriminativas progresivas (PDFL) que adopta diferentes estrategias de alineación en diferentes etapas para aliviar la discrepancia y aprender características discriminativas progresivamente. Específicamente, primero diseñamos un módulo de fusión cruzada adaptativa (ACFM) para aprender las características relevantes para la identidad a través de la alineación de modalidad con atención a nivel de canal. Para preservar bien la información de identidad, proponemos un módulo de normalización de instancias guiado por doble atención (DINM), que puede guiar bien la normalización de instancias para alinear dos modalidades en un espacio de características unificado a través de la incrustación de información de canal y espacial. Finalmente, generamos múltiples características de partes de una persona para explorar diferencias sutiles. Se impone una optimización de múltiples pérdidas durante el proceso de entrenamiento para una supervisión de aprendizaje más efectiva. Experimentos extensos en los conjuntos de datos públicos de SYSU-MM01 y RegDB validan que nuestro método propuesto se desempeña favorablemente frente a la mayoría de los métodos de vanguardia.
Descripción
La tarea de reidentificación de personas visible-infrarrojo (VI-ReID) tiene como objetivo recuperar la misma persona entre imágenes visibles e infrarrojas. VI-ReID es una tarea desafiante debido a la gran discrepancia de modalidad y a las complejas variaciones intra-modalidad. Los trabajos existentes principalmente completan la alineación de modalidades en una etapa. Sin embargo, alinear modalidades en diferentes etapas tiene efectos positivos en las distancias intraclase e interclase de las características de cruce de modalidad, que a menudo son ignoradas. Además, las características discriminativas con información de identidad pueden corromperse en el procesamiento de la alineación de modalidad, degradando aún más el rendimiento de la reidentificación de personas. En este documento, proponemos una red de aprendizaje de características discriminativas progresivas (PDFL) que adopta diferentes estrategias de alineación en diferentes etapas para aliviar la discrepancia y aprender características discriminativas progresivamente. Específicamente, primero diseñamos un módulo de fusión cruzada adaptativa (ACFM) para aprender las características relevantes para la identidad a través de la alineación de modalidad con atención a nivel de canal. Para preservar bien la información de identidad, proponemos un módulo de normalización de instancias guiado por doble atención (DINM), que puede guiar bien la normalización de instancias para alinear dos modalidades en un espacio de características unificado a través de la incrustación de información de canal y espacial. Finalmente, generamos múltiples características de partes de una persona para explorar diferencias sutiles. Se impone una optimización de múltiples pérdidas durante el proceso de entrenamiento para una supervisión de aprendizaje más efectiva. Experimentos extensos en los conjuntos de datos públicos de SYSU-MM01 y RegDB validan que nuestro método propuesto se desempeña favorablemente frente a la mayoría de los métodos de vanguardia.