Separable convnet spatiotemporal mixer for action recognition

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Separable convnet spatiotemporal mixer for action recognition

Autores: Cheng, Hsu-Yung; Yu, Chih-Chang; Li, Chenyu

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Separable convnet spatiotemporal mixer for action recognition

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de acción en video

Visión por computadora

Mezclador Espaciotemporal ConvNet separable

Eficiente

Ligero

Escalabilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 38

Citaciones: Sin citaciones

El reconocimiento de acciones en video es vital en el área de investigación de visión por computadora. En este documento, desarrollamos un modelo novedoso, llamado Separable ConvNet Spatiotemporal Mixer (SCSM). Nuestro objetivo es desarrollar una columna vertebral eficiente y ligera para el reconocimiento de acciones que puede aplicarse a modelos multi-tarea para aumentar la precisión y la velocidad de procesamiento. El modelo SCSM utiliza una nueva compresión espacial jerárquica, empleando el método de fusión espaciotemporal, que consta de un dominio espacial y un dominio temporal. El modelo SCSM mantiene la independencia de cada fotograma en el dominio espacial para la extracción de características y fusiona las características espaciotemporales en el dominio temporal. La arquitectura se puede adaptar a diferentes requisitos de velocidad de cuadros debido a su alta escalabilidad. Es adecuado para servir como columna vertebral para la extracción de características de video multi-tarea o aplicaciones industriales con sus bajos costos de predicción y entrenamiento. Según los resultados experimentales, SCSM tiene un bajo número de parámetros y baja complejidad computacional, lo que lo hace altamente escalable con fuertes capacidades de aprendizaje por transferencia. El modelo logra una precisión de reconocimiento de acciones en video comparable a modelos de última generación con un tamaño de parámetro más pequeño y menos requisitos computacionales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro