logo móvil
Contáctanos

EHAFF-NET: atención híbrida mejorada y fusión de características para la identificación de peatones

Autores: Yang, Jun; Wang, Yan; Xie, Haizhen; Chen, Jiayue; Sun, Shulong; Zhang, Xiaolan

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

EHAFF-NET: atención híbrida mejorada y fusión de características para la identificación de peatones


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Reidentificación de peatones
EHAFF-NET
Módulo de Atención Híbrida Mejorado
Módulo de Integración de Características de Múltiples Ramas
Diferencias de perspectiva
Variaciones de iluminación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 17

Citaciones: Sin citaciones


Descripción
Este estudio aborda los desafíos interescenarios en la reidentificación de peatones para la seguridad pública, incluyendo diferencias de perspectiva, variaciones de iluminación, oclusiones y expresiones de características vagas. Proponemos un método de reidentificación de peatones llamado EHAFF-NET, que integra un mecanismo de atención híbrido mejorado y fusión de características de múltiples ramas. Introducimos el Módulo de Atención Híbrida Mejorado (EHAM), que combina mecanismos de atención de canal y espacial. El mecanismo de atención de canal utiliza autoatención para capturar dependencias a larga distancia y extrae características locales de múltiples escalas con núcleos convolucionales y mezcla de canales. Los mecanismos de atención espacial agregan características utilizando promedio global y max pooling para mejorar la representación espacial. Para abordar problemas como diferencias de perspectiva, cambios de iluminación y oclusiones, incorporamos el módulo de Integración de Características de Múltiples Ramas. La rama global captura información general con promedio global, mientras que la rama local integra características de diferentes capas a través del Módulo de Integración de Características de Profundidad Diversa (DDFIM) para extraer información semántica de múltiples escalas. También extrae características basadas en proporciones humanas, equilibrando semántica de alto nivel y detalles de bajo nivel. Los experimentos demuestran que nuestro modelo logra un mAP del 92.5% y un R1 del 94.7% en el conjunto de datos Market-1501, un mAP del 85.4% y un R1 del 88.6% en el conjunto de datos DukeMTMC-reID, y un mAP del 49.1% y un R1 del 73.8% en el conjunto de datos MSMT17, demostrando ventajas significativas de precisión sobre varios modelos avanzados.

Otros recursos que podrían interesarte

Temas Virtualpro