Un método de conteo de multitudes débilmente supervisado a través de la combinación de CNN y Transformer
Autores: Cai, Yuhang; Zhang, De
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un método de conteo de multitudes débilmente supervisado a través de la combinación de CNN y Transformer
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Conteo de multitudes
Métodos débilmente supervisados
Red neuronal convolucional
Marco de trabajo Transformer
CNN
Transformer
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Durante los últimos cinco años, ha habido una tendencia creciente de métodos de conteo de multitudes débilmente supervisados siendo desarrollados ya que tales métodos solo se basan en anotaciones a nivel de recuento y evitan un proceso de etiquetado laborioso. Sin embargo, los métodos débilmente supervisados existentes suelen fallar en lograr un rendimiento de conteo comparable a los métodos completamente supervisados. Para mejorar la precisión de las tareas de conteo de multitudes, proponemos combinar la red neuronal convolucional (CNN) y los marcos de Transformer. Dado que CNN se enfoca en capturar información detallada local y Transformer puede extraer efectivamente información de contexto global, creemos que la combinación de CNN y Transformer podría aprender representaciones de características más eficientes para imágenes de multitudes. Nuestro marco propuesto se llama CrowdCCT (Conteo de Multitudes a través de CNN y Transformer), y está compuesto por una parte de extracción de características de CNN, una parte de extracción de características de Transformer y una parte de regresión de conteo. En la parte de CNN, utilizamos DenseNet121 para aprender características semánticas ricas con su estructura de conexión densa inherente. En la parte de Transformer, introducimos dos módulos de atención, Atención Dilatada Multi-Escala (MSDA) y Atención Mejorada por Localización (LEA), que trabajan juntos para extraer características más expresivas. Las características de salida se alimentan luego en la parte de regresión para generar los resultados de conteo predichos. Los experimentos en cuatro conjuntos de datos de referencia de conteo de multitudes demuestran que nuestro CrowdCCT propuesto puede lograr un rendimiento superior. Además, los resultados experimentales validan la viabilidad y efectividad de combinar CNN y Transformer para tareas de conteo débilmente supervisadas. Nuestro trabajo podría esperarse que promueva más investigaciones de combinación sobre CNN y Transformer.
Descripción
Durante los últimos cinco años, ha habido una tendencia creciente de métodos de conteo de multitudes débilmente supervisados siendo desarrollados ya que tales métodos solo se basan en anotaciones a nivel de recuento y evitan un proceso de etiquetado laborioso. Sin embargo, los métodos débilmente supervisados existentes suelen fallar en lograr un rendimiento de conteo comparable a los métodos completamente supervisados. Para mejorar la precisión de las tareas de conteo de multitudes, proponemos combinar la red neuronal convolucional (CNN) y los marcos de Transformer. Dado que CNN se enfoca en capturar información detallada local y Transformer puede extraer efectivamente información de contexto global, creemos que la combinación de CNN y Transformer podría aprender representaciones de características más eficientes para imágenes de multitudes. Nuestro marco propuesto se llama CrowdCCT (Conteo de Multitudes a través de CNN y Transformer), y está compuesto por una parte de extracción de características de CNN, una parte de extracción de características de Transformer y una parte de regresión de conteo. En la parte de CNN, utilizamos DenseNet121 para aprender características semánticas ricas con su estructura de conexión densa inherente. En la parte de Transformer, introducimos dos módulos de atención, Atención Dilatada Multi-Escala (MSDA) y Atención Mejorada por Localización (LEA), que trabajan juntos para extraer características más expresivas. Las características de salida se alimentan luego en la parte de regresión para generar los resultados de conteo predichos. Los experimentos en cuatro conjuntos de datos de referencia de conteo de multitudes demuestran que nuestro CrowdCCT propuesto puede lograr un rendimiento superior. Además, los resultados experimentales validan la viabilidad y efectividad de combinar CNN y Transformer para tareas de conteo débilmente supervisadas. Nuestro trabajo podría esperarse que promueva más investigaciones de combinación sobre CNN y Transformer.