MgMViT: multi-granularidad y transformer de visión multi-escala para reconocimiento eficiente de acciones

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

MgMViT: multi-granularidad y transformer de visión multi-escala para reconocimiento eficiente de acciones

Autores: Huo, Hua; Li, Bingjie

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

MgMViT: multi-granularidad y transformer de visión multi-escala para reconocimiento eficiente de acciones

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Campo

Reconocimiento de acciones basado en video

Transformadores de Visión

Redes Neuronales Convolucionales

Rendimiento del modelo

Costos computacionales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

Hoy en día, el campo del reconocimiento de acciones basado en video está desarrollándose rápidamente. Aunque los Transformadores de Visión (ViT) han avanzado mucho en el procesamiento de imágenes estáticas, aún no están completamente optimizados para aplicaciones de video dinámico. Las Redes Neuronales Convolucionales (CNN) y modelos relacionados funcionan excepcionalmente bien en el reconocimiento de acciones en video. Sin embargo, todavía existen algunos problemas que no se pueden ignorar, como los altos costos computacionales y el consumo de memoria. Ante estos problemas, la investigación actual se centra en encontrar métodos efectivos para mejorar el rendimiento del modelo y superar los límites actuales. Por lo tanto, presentamos un modelo único de Transformador de Visión basado en fusión de granularidad múltiple y multi-escala para lograr un reconocimiento eficiente de acciones, diseñado para el reconocimiento de acciones en videos para reducir eficazmente los costos computacionales y el uso de memoria. En primer lugar, diseñamos un módulo de múltiple escala y granularidad que se integra con bloques de Transformador. En segundo lugar, se utiliza una estructura jerárquica para gestionar la información en diversas escalas, e introducimos la granularidad múltiple sobre la multi-escala, lo que permite una elección selectiva del número de tokens que ingresan al siguiente paso computacional, reduciendo así tokens redundantes. En tercer lugar, se introduce una capa de fusión de granularidad gruesa-fina para reducir la longitud de secuencia de tokens con menor contenido de información. Los dos mecanismos anteriores se combinan para optimizar la asignación de recursos en el modelo, enfatizando aún más la información crítica y reduciendo la redundancia, minimizando así los costos computacionales. Para evaluar nuestro enfoque propuesto, se realizan experimentos exhaustivos utilizando conjuntos de datos de referencia en el dominio del reconocimiento de acciones. Los resultados experimentales demuestran que nuestro método ha logrado un rendimiento de vanguardia en términos de precisión y eficiencia.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro