EHAFF-NET: atención híbrida mejorada y fusión de características para la identificación de peatones
Autores: Yang, Jun; Wang, Yan; Xie, Haizhen; Chen, Jiayue; Sun, Shulong; Zhang, Xiaolan
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
EHAFF-NET: atención híbrida mejorada y fusión de características para la identificación de peatones
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Reidentificación de peatones
EHAFF-NET
Módulo de Atención Híbrida Mejorado
Módulo de Integración de Características de Múltiples Ramas
Diferencias de perspectiva
Variaciones de iluminación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 17
Citaciones: Sin citaciones
Este estudio aborda los desafíos interescenarios en la reidentificación de peatones para la seguridad pública, incluyendo diferencias de perspectiva, variaciones de iluminación, oclusiones y expresiones de características vagas. Proponemos un método de reidentificación de peatones llamado EHAFF-NET, que integra un mecanismo de atención híbrido mejorado y fusión de características de múltiples ramas. Introducimos el Módulo de Atención Híbrida Mejorado (EHAM), que combina mecanismos de atención de canal y espacial. El mecanismo de atención de canal utiliza autoatención para capturar dependencias a larga distancia y extrae características locales de múltiples escalas con núcleos convolucionales y mezcla de canales. Los mecanismos de atención espacial agregan características utilizando promedio global y max pooling para mejorar la representación espacial. Para abordar problemas como diferencias de perspectiva, cambios de iluminación y oclusiones, incorporamos el módulo de Integración de Características de Múltiples Ramas. La rama global captura información general con promedio global, mientras que la rama local integra características de diferentes capas a través del Módulo de Integración de Características de Profundidad Diversa (DDFIM) para extraer información semántica de múltiples escalas. También extrae características basadas en proporciones humanas, equilibrando semántica de alto nivel y detalles de bajo nivel. Los experimentos demuestran que nuestro modelo logra un mAP del 92.5% y un R1 del 94.7% en el conjunto de datos Market-1501, un mAP del 85.4% y un R1 del 88.6% en el conjunto de datos DukeMTMC-reID, y un mAP del 49.1% y un R1 del 73.8% en el conjunto de datos MSMT17, demostrando ventajas significativas de precisión sobre varios modelos avanzados.
Descripción
Este estudio aborda los desafíos interescenarios en la reidentificación de peatones para la seguridad pública, incluyendo diferencias de perspectiva, variaciones de iluminación, oclusiones y expresiones de características vagas. Proponemos un método de reidentificación de peatones llamado EHAFF-NET, que integra un mecanismo de atención híbrido mejorado y fusión de características de múltiples ramas. Introducimos el Módulo de Atención Híbrida Mejorado (EHAM), que combina mecanismos de atención de canal y espacial. El mecanismo de atención de canal utiliza autoatención para capturar dependencias a larga distancia y extrae características locales de múltiples escalas con núcleos convolucionales y mezcla de canales. Los mecanismos de atención espacial agregan características utilizando promedio global y max pooling para mejorar la representación espacial. Para abordar problemas como diferencias de perspectiva, cambios de iluminación y oclusiones, incorporamos el módulo de Integración de Características de Múltiples Ramas. La rama global captura información general con promedio global, mientras que la rama local integra características de diferentes capas a través del Módulo de Integración de Características de Profundidad Diversa (DDFIM) para extraer información semántica de múltiples escalas. También extrae características basadas en proporciones humanas, equilibrando semántica de alto nivel y detalles de bajo nivel. Los experimentos demuestran que nuestro modelo logra un mAP del 92.5% y un R1 del 94.7% en el conjunto de datos Market-1501, un mAP del 85.4% y un R1 del 88.6% en el conjunto de datos DukeMTMC-reID, y un mAP del 49.1% y un R1 del 73.8% en el conjunto de datos MSMT17, demostrando ventajas significativas de precisión sobre varios modelos avanzados.