Separable convnet spatiotemporal mixer for action recognition
Autores: Cheng, Hsu-Yung; Yu, Chih-Chang; Li, Chenyu
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Separable convnet spatiotemporal mixer for action recognition
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de acción en video
Visión por computadora
Mezclador Espaciotemporal ConvNet separable
Eficiente
Ligero
Escalabilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
El reconocimiento de acciones en video es vital en el área de investigación de visión por computadora. En este documento, desarrollamos un modelo novedoso, llamado Separable ConvNet Spatiotemporal Mixer (SCSM). Nuestro objetivo es desarrollar una columna vertebral eficiente y ligera para el reconocimiento de acciones que puede aplicarse a modelos multi-tarea para aumentar la precisión y la velocidad de procesamiento. El modelo SCSM utiliza una nueva compresión espacial jerárquica, empleando el método de fusión espaciotemporal, que consta de un dominio espacial y un dominio temporal. El modelo SCSM mantiene la independencia de cada fotograma en el dominio espacial para la extracción de características y fusiona las características espaciotemporales en el dominio temporal. La arquitectura se puede adaptar a diferentes requisitos de velocidad de cuadros debido a su alta escalabilidad. Es adecuado para servir como columna vertebral para la extracción de características de video multi-tarea o aplicaciones industriales con sus bajos costos de predicción y entrenamiento. Según los resultados experimentales, SCSM tiene un bajo número de parámetros y baja complejidad computacional, lo que lo hace altamente escalable con fuertes capacidades de aprendizaje por transferencia. El modelo logra una precisión de reconocimiento de acciones en video comparable a modelos de última generación con un tamaño de parámetro más pequeño y menos requisitos computacionales.
Descripción
El reconocimiento de acciones en video es vital en el área de investigación de visión por computadora. En este documento, desarrollamos un modelo novedoso, llamado Separable ConvNet Spatiotemporal Mixer (SCSM). Nuestro objetivo es desarrollar una columna vertebral eficiente y ligera para el reconocimiento de acciones que puede aplicarse a modelos multi-tarea para aumentar la precisión y la velocidad de procesamiento. El modelo SCSM utiliza una nueva compresión espacial jerárquica, empleando el método de fusión espaciotemporal, que consta de un dominio espacial y un dominio temporal. El modelo SCSM mantiene la independencia de cada fotograma en el dominio espacial para la extracción de características y fusiona las características espaciotemporales en el dominio temporal. La arquitectura se puede adaptar a diferentes requisitos de velocidad de cuadros debido a su alta escalabilidad. Es adecuado para servir como columna vertebral para la extracción de características de video multi-tarea o aplicaciones industriales con sus bajos costos de predicción y entrenamiento. Según los resultados experimentales, SCSM tiene un bajo número de parámetros y baja complejidad computacional, lo que lo hace altamente escalable con fuertes capacidades de aprendizaje por transferencia. El modelo logra una precisión de reconocimiento de acciones en video comparable a modelos de última generación con un tamaño de parámetro más pequeño y menos requisitos computacionales.