logo móvil
Contáctanos

3d-shufflevit: una red eficiente de reconocimiento de acciones en video con una profunda integración de autoatención y convolución

Autores: Wang, Yinghui; Zhu, Anlei; Ma, Haomiao; Ai, Lingyu; Song, Wei; Zhang, Shaojie

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

3d-shufflevit: una red eficiente de reconocimiento de acciones en video con una profunda integración de autoatención y convolución


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Red neuronal convolucional profunda
Características espacio-temporales
Modelos 3D
Mecanismo de autoatención
Red ligera

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
En comparación con los métodos tradicionales, el modelo de reconocimiento de acciones basado en redes neuronales convolucionales profundas tridimensionales captura características espacio-temporales de manera más precisa, lo que resulta en una mayor precisión. Sin embargo, el gran número de parámetros y requisitos computacionales de los modelos tridimensionales dificultan su implementación en dispositivos móviles con limitaciones de potencia de cálculo. Para lograr un modelo eficiente de reconocimiento de acciones en video, hemos analizado y comparado los principios clásicos de redes ligeras y propuesto la red 3D-ShuffleViT. Al integrar profundamente el mecanismo de autoatención con la convolución, hemos introducido un módulo ACISA eficiente que mejora aún más el rendimiento de nuestro modelo propuesto. Esto ha resultado en un rendimiento excepcional tanto en el reconocimiento de acciones dependiente del contexto como independiente del contexto, al tiempo que reduce los costos de implementación. Cabe destacar que nuestra red 3D-ShuffleViT, con un costo computacional de solo el 6% del de SlowFast-ResNet101, logró el 98% de la precisión Top1 de este último en el conjunto de datos EgoGesture. Además, en la misma CPU (Intel i5-8300H), su velocidad fue 2.5 veces mayor que la de este último. Además, al implementar nuestro modelo en dispositivos de borde, nuestra red propuesta logró el mejor equilibrio entre precisión y velocidad entre las redes ligeras del mismo orden.

Otros recursos que podrían interesarte

Temas Virtualpro