logo móvil
Contáctanos

MgMViT: multi-granularidad y transformer de visión multi-escala para reconocimiento eficiente de acciones

Autores: Huo, Hua; Li, Bingjie

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

MgMViT: multi-granularidad y transformer de visión multi-escala para reconocimiento eficiente de acciones


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Campo
Reconocimiento de acciones basado en video
Transformadores de Visión
Redes Neuronales Convolucionales
Rendimiento del modelo
Costos computacionales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
Hoy en día, el campo del reconocimiento de acciones basado en video está desarrollándose rápidamente. Aunque los Transformadores de Visión (ViT) han avanzado mucho en el procesamiento de imágenes estáticas, aún no están completamente optimizados para aplicaciones de video dinámico. Las Redes Neuronales Convolucionales (CNN) y modelos relacionados funcionan excepcionalmente bien en el reconocimiento de acciones en video. Sin embargo, todavía existen algunos problemas que no se pueden ignorar, como los altos costos computacionales y el consumo de memoria. Ante estos problemas, la investigación actual se centra en encontrar métodos efectivos para mejorar el rendimiento del modelo y superar los límites actuales. Por lo tanto, presentamos un modelo único de Transformador de Visión basado en fusión de granularidad múltiple y multi-escala para lograr un reconocimiento eficiente de acciones, diseñado para el reconocimiento de acciones en videos para reducir eficazmente los costos computacionales y el uso de memoria. En primer lugar, diseñamos un módulo de múltiple escala y granularidad que se integra con bloques de Transformador. En segundo lugar, se utiliza una estructura jerárquica para gestionar la información en diversas escalas, e introducimos la granularidad múltiple sobre la multi-escala, lo que permite una elección selectiva del número de tokens que ingresan al siguiente paso computacional, reduciendo así tokens redundantes. En tercer lugar, se introduce una capa de fusión de granularidad gruesa-fina para reducir la longitud de secuencia de tokens con menor contenido de información. Los dos mecanismos anteriores se combinan para optimizar la asignación de recursos en el modelo, enfatizando aún más la información crítica y reduciendo la redundancia, minimizando así los costos computacionales. Para evaluar nuestro enfoque propuesto, se realizan experimentos exhaustivos utilizando conjuntos de datos de referencia en el dominio del reconocimiento de acciones. Los resultados experimentales demuestran que nuestro método ha logrado un rendimiento de vanguardia en términos de precisión y eficiencia.

Otros recursos que podrían interesarte

Temas Virtualpro