Mhdnet: un modelo híbrido de aprendizaje profundo a múltiples escalas para la reidentificación de personas
Autores: Wang, Jinghui; Wang, Jun
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mhdnet: un modelo híbrido de aprendizaje profundo a múltiples escalas para la reidentificación de personas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Objetivo
Reidentificación de personas
Videos de vigilancia
Red neuronal convolucional
Transformador de visión
Módulo de Fusión de Características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
El objetivo principal de la reidentificación de personas es identificar individuos en videos de vigilancia en diversos escenarios. Los modelos convencionales de reconocimiento de peatones suelen emplear redes neuronales convolucionales (CNN) y redes transformadoras de visión (ViT) para extraer características, y si bien las CNN son hábiles para extraer características locales a través de operaciones de convolución, capturar información global puede ser desafiante, especialmente al tratar con imágenes de alta resolución. Por el contrario, ViT se basan en módulos de autoatención en cascada para capturar dependencias de características a larga distancia, sacrificando detalles de características locales. Ante estas limitaciones, este artículo presenta el MHDNet, una estructura de red híbrida para el reconocimiento de peatones que combina operaciones convolucionales y mecanismos de autoatención para mejorar el aprendizaje de representaciones. El MHDNet se basa en el Módulo de Fusión de Características (FFM), que armoniza características globales y locales en diferentes resoluciones. Con una estructura paralela, el modelo MHDNet maximiza la preservación de características locales y representaciones globales. Experimentos en dos conjuntos de datos de reidentificación de personas demuestran la superioridad del MHDNet sobre otros métodos de vanguardia.
Descripción
El objetivo principal de la reidentificación de personas es identificar individuos en videos de vigilancia en diversos escenarios. Los modelos convencionales de reconocimiento de peatones suelen emplear redes neuronales convolucionales (CNN) y redes transformadoras de visión (ViT) para extraer características, y si bien las CNN son hábiles para extraer características locales a través de operaciones de convolución, capturar información global puede ser desafiante, especialmente al tratar con imágenes de alta resolución. Por el contrario, ViT se basan en módulos de autoatención en cascada para capturar dependencias de características a larga distancia, sacrificando detalles de características locales. Ante estas limitaciones, este artículo presenta el MHDNet, una estructura de red híbrida para el reconocimiento de peatones que combina operaciones convolucionales y mecanismos de autoatención para mejorar el aprendizaje de representaciones. El MHDNet se basa en el Módulo de Fusión de Características (FFM), que armoniza características globales y locales en diferentes resoluciones. Con una estructura paralela, el modelo MHDNet maximiza la preservación de características locales y representaciones globales. Experimentos en dos conjuntos de datos de reidentificación de personas demuestran la superioridad del MHDNet sobre otros métodos de vanguardia.