3d-shufflevit: una red eficiente de reconocimiento de acciones en video con una profunda integración de autoatención y convolución

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

3d-shufflevit: una red eficiente de reconocimiento de acciones en video con una profunda integración de autoatención y convolución

Autores: Wang, Yinghui; Zhu, Anlei; Ma, Haomiao; Ai, Lingyu; Song, Wei; Zhang, Shaojie

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

3d-shufflevit: una red eficiente de reconocimiento de acciones en video con una profunda integración de autoatención y convolución

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Red neuronal convolucional profunda

Características espacio-temporales

Modelos 3D

Mecanismo de autoatención

Red ligera

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

En comparación con los métodos tradicionales, el modelo de reconocimiento de acciones basado en redes neuronales convolucionales profundas tridimensionales captura características espacio-temporales de manera más precisa, lo que resulta en una mayor precisión. Sin embargo, el gran número de parámetros y requisitos computacionales de los modelos tridimensionales dificultan su implementación en dispositivos móviles con limitaciones de potencia de cálculo. Para lograr un modelo eficiente de reconocimiento de acciones en video, hemos analizado y comparado los principios clásicos de redes ligeras y propuesto la red 3D-ShuffleViT. Al integrar profundamente el mecanismo de autoatención con la convolución, hemos introducido un módulo ACISA eficiente que mejora aún más el rendimiento de nuestro modelo propuesto. Esto ha resultado en un rendimiento excepcional tanto en el reconocimiento de acciones dependiente del contexto como independiente del contexto, al tiempo que reduce los costos de implementación. Cabe destacar que nuestra red 3D-ShuffleViT, con un costo computacional de solo el 6% del de SlowFast-ResNet101, logró el 98% de la precisión Top1 de este último en el conjunto de datos EgoGesture. Además, en la misma CPU (Intel i5-8300H), su velocidad fue 2.5 veces mayor que la de este último. Además, al implementar nuestro modelo en dispositivos de borde, nuestra red propuesta logró el mejor equilibrio entre precisión y velocidad entre las redes ligeras del mismo orden.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro