Un método de conteo de multitudes débilmente supervisado a través de la combinación de CNN y Transformer

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un método de conteo de multitudes débilmente supervisado a través de la combinación de CNN y Transformer

Autores: Cai, Yuhang; Zhang, De

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Un método de conteo de multitudes débilmente supervisado a través de la combinación de CNN y Transformer

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Conteo de multitudes

Métodos débilmente supervisados

Red neuronal convolucional

Marco de trabajo Transformer

CNN

Transformer

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones

Durante los últimos cinco años, ha habido una tendencia creciente de métodos de conteo de multitudes débilmente supervisados siendo desarrollados ya que tales métodos solo se basan en anotaciones a nivel de recuento y evitan un proceso de etiquetado laborioso. Sin embargo, los métodos débilmente supervisados existentes suelen fallar en lograr un rendimiento de conteo comparable a los métodos completamente supervisados. Para mejorar la precisión de las tareas de conteo de multitudes, proponemos combinar la red neuronal convolucional (CNN) y los marcos de Transformer. Dado que CNN se enfoca en capturar información detallada local y Transformer puede extraer efectivamente información de contexto global, creemos que la combinación de CNN y Transformer podría aprender representaciones de características más eficientes para imágenes de multitudes. Nuestro marco propuesto se llama CrowdCCT (Conteo de Multitudes a través de CNN y Transformer), y está compuesto por una parte de extracción de características de CNN, una parte de extracción de características de Transformer y una parte de regresión de conteo. En la parte de CNN, utilizamos DenseNet121 para aprender características semánticas ricas con su estructura de conexión densa inherente. En la parte de Transformer, introducimos dos módulos de atención, Atención Dilatada Multi-Escala (MSDA) y Atención Mejorada por Localización (LEA), que trabajan juntos para extraer características más expresivas. Las características de salida se alimentan luego en la parte de regresión para generar los resultados de conteo predichos. Los experimentos en cuatro conjuntos de datos de referencia de conteo de multitudes demuestran que nuestro CrowdCCT propuesto puede lograr un rendimiento superior. Además, los resultados experimentales validan la viabilidad y efectividad de combinar CNN y Transformer para tareas de conteo débilmente supervisadas. Nuestro trabajo podría esperarse que promueva más investigaciones de combinación sobre CNN y Transformer.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro