Cc-detr: detr con contexto híbrido y convolución de coordenadas multinivel para el conteo de multitudes
Autores: Gu, Yanhong; Zhang, Tao; Hu, Yuxia; Nian, Fudong
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Cc-detr: detr con contexto híbrido y convolución de coordenadas multinivel para el conteo de multitudes
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Enfoques de conteo de multitudes
Métodos de regresión de mapas de densidad
Variaciones de escala
Interferencia de fondo complejo
Crowd Counting DETR
Marco basado en DETR
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
Los enfoques predominantes de conteo de multitudes dependen principalmente de métodos de regresión de mapas de densidad. A pesar del maravilloso progreso, las significativas variaciones de escala y la compleja interferencia de fondo dentro de la misma imagen siguen siendo desafíos. Para abordar estos problemas, en este documento proponemos un nuevo marco de conteo de multitudes basado en DETR llamado Crowd Counting DETR (CC-DETR), que tiene como objetivo extender el marco de detección de objetos DETR de vanguardia a la tarea de conteo de multitudes. En CC-DETR, se propone una estructura codificador-decodificador similar a DETR (Hybrid Context DETR, es decir, HCDETR) para abordar información visual compleja fusionando características de niveles semánticos híbridos a través de un transformador. Además, diseñamos un Módulo de Convolución Dilatada Coordinada (CDCM) para emplear de manera efectiva información de contexto sensible a la posición en diferentes escalas. Experimentos extensos en tres desafiantes conjuntos de datos de conteo de multitudes (ShanghaiTech, UCF-QNRF y NWPU) demuestran que nuestro modelo es efectivo y competitivo en comparación con los modelos de conteo de multitudes del estado del arte.
Descripción
Los enfoques predominantes de conteo de multitudes dependen principalmente de métodos de regresión de mapas de densidad. A pesar del maravilloso progreso, las significativas variaciones de escala y la compleja interferencia de fondo dentro de la misma imagen siguen siendo desafíos. Para abordar estos problemas, en este documento proponemos un nuevo marco de conteo de multitudes basado en DETR llamado Crowd Counting DETR (CC-DETR), que tiene como objetivo extender el marco de detección de objetos DETR de vanguardia a la tarea de conteo de multitudes. En CC-DETR, se propone una estructura codificador-decodificador similar a DETR (Hybrid Context DETR, es decir, HCDETR) para abordar información visual compleja fusionando características de niveles semánticos híbridos a través de un transformador. Además, diseñamos un Módulo de Convolución Dilatada Coordinada (CDCM) para emplear de manera efectiva información de contexto sensible a la posición en diferentes escalas. Experimentos extensos en tres desafiantes conjuntos de datos de conteo de multitudes (ShanghaiTech, UCF-QNRF y NWPU) demuestran que nuestro modelo es efectivo y competitivo en comparación con los modelos de conteo de multitudes del estado del arte.