Transformador de distancia inversa jerárquico para una localización mejorada en multitudes densas
Autores: Qiu, Xiangfeng; Ye, Jin; Chen, Siyu; Su, Jinhe
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Transformador de distancia inversa jerárquico para una localización mejorada en multitudes densas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Localización de multitudes
Transformador jerárquico de distancia inversa
Transformadores de visión piramidal
Técnicas focales de distancia inversa
Poblaciones densas
Localización individual
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Lograr una localización individual precisa dentro de escenas densamente pobladas representa un desafío significativo debido a la intrincada interacción de ocultamientos y patrones de densidad variables. Los métodos tradicionales para la localización de multitudes a menudo dependen de redes neuronales convolucionales (CNN) para generar mapas de densidad. Sin embargo, estos enfoques son propensos a inexactitudes derivadas de las extensas superposiciones inherentes en poblaciones densas. Para superar este desafío, nuestro estudio introduce el Transformador de Distancia Inversa Jerárquico (HIDT), un marco novedoso que aprovecha los campos receptivos globales multinivel de los Transformadores de Visión Piramidal. Al adaptarse a las características multinivel de las multitudes, HIDT mejora significativamente la precisión de la localización individual. Al incorporar técnicas de Distancia Inversa Focal, HIDT aborda hábilmente problemas relacionados con la variación de escala y superposiciones densas, priorizando características locales de pequeña escala dentro de la comprensión contextual más amplia de la escena. Una evaluación rigurosa en bancos de pruebas estandarizados ha validado de manera inequívoca la superioridad de nuestro enfoque. HIDT muestra un rendimiento excepcional en varios conjuntos de datos. Notablemente, en el conjunto de datos JHU-Crowd++, nuestro método demuestra mejoras significativas sobre la línea base, con métricas de MAE y MSE disminuyendo de 66.6 y 253.6 a 59.1 y 243.5, respectivamente. De manera similar, en el conjunto de datos UCF-QNRF, las métricas de rendimiento aumentan de 89.0 y 153.5 a 83.6 y 138.7, resaltando la eficacia y versatilidad de nuestro enfoque.
Descripción
Lograr una localización individual precisa dentro de escenas densamente pobladas representa un desafío significativo debido a la intrincada interacción de ocultamientos y patrones de densidad variables. Los métodos tradicionales para la localización de multitudes a menudo dependen de redes neuronales convolucionales (CNN) para generar mapas de densidad. Sin embargo, estos enfoques son propensos a inexactitudes derivadas de las extensas superposiciones inherentes en poblaciones densas. Para superar este desafío, nuestro estudio introduce el Transformador de Distancia Inversa Jerárquico (HIDT), un marco novedoso que aprovecha los campos receptivos globales multinivel de los Transformadores de Visión Piramidal. Al adaptarse a las características multinivel de las multitudes, HIDT mejora significativamente la precisión de la localización individual. Al incorporar técnicas de Distancia Inversa Focal, HIDT aborda hábilmente problemas relacionados con la variación de escala y superposiciones densas, priorizando características locales de pequeña escala dentro de la comprensión contextual más amplia de la escena. Una evaluación rigurosa en bancos de pruebas estandarizados ha validado de manera inequívoca la superioridad de nuestro enfoque. HIDT muestra un rendimiento excepcional en varios conjuntos de datos. Notablemente, en el conjunto de datos JHU-Crowd++, nuestro método demuestra mejoras significativas sobre la línea base, con métricas de MAE y MSE disminuyendo de 66.6 y 253.6 a 59.1 y 243.5, respectivamente. De manera similar, en el conjunto de datos UCF-QNRF, las métricas de rendimiento aumentan de 89.0 y 153.5 a 83.6 y 138.7, resaltando la eficacia y versatilidad de nuestro enfoque.