3d-shufflevit: una red eficiente de reconocimiento de acciones en video con una profunda integración de autoatención y convolución
Autores: Wang, Yinghui; Zhu, Anlei; Ma, Haomiao; Ai, Lingyu; Song, Wei; Zhang, Shaojie
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
3d-shufflevit: una red eficiente de reconocimiento de acciones en video con una profunda integración de autoatención y convolución
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Red neuronal convolucional profunda
Características espacio-temporales
Modelos 3D
Mecanismo de autoatención
Red ligera
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
En comparación con los métodos tradicionales, el modelo de reconocimiento de acciones basado en redes neuronales convolucionales profundas tridimensionales captura características espacio-temporales de manera más precisa, lo que resulta en una mayor precisión. Sin embargo, el gran número de parámetros y requisitos computacionales de los modelos tridimensionales dificultan su implementación en dispositivos móviles con limitaciones de potencia de cálculo. Para lograr un modelo eficiente de reconocimiento de acciones en video, hemos analizado y comparado los principios clásicos de redes ligeras y propuesto la red 3D-ShuffleViT. Al integrar profundamente el mecanismo de autoatención con la convolución, hemos introducido un módulo ACISA eficiente que mejora aún más el rendimiento de nuestro modelo propuesto. Esto ha resultado en un rendimiento excepcional tanto en el reconocimiento de acciones dependiente del contexto como independiente del contexto, al tiempo que reduce los costos de implementación. Cabe destacar que nuestra red 3D-ShuffleViT, con un costo computacional de solo el 6% del de SlowFast-ResNet101, logró el 98% de la precisión Top1 de este último en el conjunto de datos EgoGesture. Además, en la misma CPU (Intel i5-8300H), su velocidad fue 2.5 veces mayor que la de este último. Además, al implementar nuestro modelo en dispositivos de borde, nuestra red propuesta logró el mejor equilibrio entre precisión y velocidad entre las redes ligeras del mismo orden.
Descripción
En comparación con los métodos tradicionales, el modelo de reconocimiento de acciones basado en redes neuronales convolucionales profundas tridimensionales captura características espacio-temporales de manera más precisa, lo que resulta en una mayor precisión. Sin embargo, el gran número de parámetros y requisitos computacionales de los modelos tridimensionales dificultan su implementación en dispositivos móviles con limitaciones de potencia de cálculo. Para lograr un modelo eficiente de reconocimiento de acciones en video, hemos analizado y comparado los principios clásicos de redes ligeras y propuesto la red 3D-ShuffleViT. Al integrar profundamente el mecanismo de autoatención con la convolución, hemos introducido un módulo ACISA eficiente que mejora aún más el rendimiento de nuestro modelo propuesto. Esto ha resultado en un rendimiento excepcional tanto en el reconocimiento de acciones dependiente del contexto como independiente del contexto, al tiempo que reduce los costos de implementación. Cabe destacar que nuestra red 3D-ShuffleViT, con un costo computacional de solo el 6% del de SlowFast-ResNet101, logró el 98% de la precisión Top1 de este último en el conjunto de datos EgoGesture. Además, en la misma CPU (Intel i5-8300H), su velocidad fue 2.5 veces mayor que la de este último. Además, al implementar nuestro modelo en dispositivos de borde, nuestra red propuesta logró el mejor equilibrio entre precisión y velocidad entre las redes ligeras del mismo orden.