logo móvil
Contáctanos

Un método de conteo de multitudes débilmente supervisado a través de la combinación de CNN y Transformer

Autores: Cai, Yuhang; Zhang, De

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un método de conteo de multitudes débilmente supervisado a través de la combinación de CNN y Transformer


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Conteo de multitudes
Métodos débilmente supervisados
Red neuronal convolucional
Marco de trabajo Transformer
CNN
Transformer

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones


Descripción
Durante los últimos cinco años, ha habido una tendencia creciente de métodos de conteo de multitudes débilmente supervisados siendo desarrollados ya que tales métodos solo se basan en anotaciones a nivel de recuento y evitan un proceso de etiquetado laborioso. Sin embargo, los métodos débilmente supervisados existentes suelen fallar en lograr un rendimiento de conteo comparable a los métodos completamente supervisados. Para mejorar la precisión de las tareas de conteo de multitudes, proponemos combinar la red neuronal convolucional (CNN) y los marcos de Transformer. Dado que CNN se enfoca en capturar información detallada local y Transformer puede extraer efectivamente información de contexto global, creemos que la combinación de CNN y Transformer podría aprender representaciones de características más eficientes para imágenes de multitudes. Nuestro marco propuesto se llama CrowdCCT (Conteo de Multitudes a través de CNN y Transformer), y está compuesto por una parte de extracción de características de CNN, una parte de extracción de características de Transformer y una parte de regresión de conteo. En la parte de CNN, utilizamos DenseNet121 para aprender características semánticas ricas con su estructura de conexión densa inherente. En la parte de Transformer, introducimos dos módulos de atención, Atención Dilatada Multi-Escala (MSDA) y Atención Mejorada por Localización (LEA), que trabajan juntos para extraer características más expresivas. Las características de salida se alimentan luego en la parte de regresión para generar los resultados de conteo predichos. Los experimentos en cuatro conjuntos de datos de referencia de conteo de multitudes demuestran que nuestro CrowdCCT propuesto puede lograr un rendimiento superior. Además, los resultados experimentales validan la viabilidad y efectividad de combinar CNN y Transformer para tareas de conteo débilmente supervisadas. Nuestro trabajo podría esperarse que promueva más investigaciones de combinación sobre CNN y Transformer.

Otros recursos que podrían interesarte

Temas Virtualpro