logo móvil
Contáctanos

Separable convnet spatiotemporal mixer for action recognition

Autores: Cheng, Hsu-Yung; Yu, Chih-Chang; Li, Chenyu

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Separable convnet spatiotemporal mixer for action recognition


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de acción en video
Visión por computadora
Mezclador Espaciotemporal ConvNet separable
Eficiente
Ligero
Escalabilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 38

Citaciones: Sin citaciones


Descripción
El reconocimiento de acciones en video es vital en el área de investigación de visión por computadora. En este documento, desarrollamos un modelo novedoso, llamado Separable ConvNet Spatiotemporal Mixer (SCSM). Nuestro objetivo es desarrollar una columna vertebral eficiente y ligera para el reconocimiento de acciones que puede aplicarse a modelos multi-tarea para aumentar la precisión y la velocidad de procesamiento. El modelo SCSM utiliza una nueva compresión espacial jerárquica, empleando el método de fusión espaciotemporal, que consta de un dominio espacial y un dominio temporal. El modelo SCSM mantiene la independencia de cada fotograma en el dominio espacial para la extracción de características y fusiona las características espaciotemporales en el dominio temporal. La arquitectura se puede adaptar a diferentes requisitos de velocidad de cuadros debido a su alta escalabilidad. Es adecuado para servir como columna vertebral para la extracción de características de video multi-tarea o aplicaciones industriales con sus bajos costos de predicción y entrenamiento. Según los resultados experimentales, SCSM tiene un bajo número de parámetros y baja complejidad computacional, lo que lo hace altamente escalable con fuertes capacidades de aprendizaje por transferencia. El modelo logra una precisión de reconocimiento de acciones en video comparable a modelos de última generación con un tamaño de parámetro más pequeño y menos requisitos computacionales.

Otros recursos que podrían interesarte

Temas Virtualpro