Una red de agregación espacial-temporal por canal para el reconocimiento de acciones
Autores: Wang, Huafeng; Xia, Tao; Li, Hanlin; Gu, Xianfeng; Lv, Weifeng; Wang, Yuehai
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Una red de agregación espacial-temporal por canal para el reconocimiento de acciones
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Tarea desafiante
Información temporal
Estructuras de convolución espacio-temporales
Relación de fusión
Bloque de Agregación Espacio-Temporal por Canal
CSTANet
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
Una tarea muy desafiante para el reconocimiento de acciones se refiere a cómo extraer y utilizar de manera efectiva la información temporal y espacial de un video (especialmente la información temporal). Hasta la fecha, muchos investigadores han propuesto diversas estructuras de convolución espacio-temporal. A pesar de su éxito, la mayoría de los modelos tienen limitaciones en cuanto a su rendimiento adicional, especialmente en aquellos conjuntos de datos altamente dependientes del tiempo debido a su incapacidad para identificar la relación de fusión entre las características espaciales y temporales dentro del canal de convolución. En este documento, propusimos un extractor espacial-temporal ligero y eficiente, denominado Bloque de Agregación Espacial-Temporal por Canal (bloque CSTA), que podría ser insertado de manera flexible en CNNs 2D existentes (denominado CSTANet). El Bloque CSTA utiliza dos ramas para modelar la información espacial-temporal por separado. En la rama temporal, está equipado con un Módulo de Atención al Movimiento (MA), que se utiliza para mejorar las regiones de movimiento en un video dado. Luego, introdujimos un módulo de Atención de Canal Espacio-Temporal (STCA), que podría agregar características espaciales-temporales de cada canal de bloque de manera autoadaptativa y entrenable. Los resultados experimentales finales demuestran que el CSTANet propuesto logró los mejores resultados en los conjuntos de datos EGTEA Gaze++ y Diving48, y obtuvo resultados competitivos en Something-Something V1&V2 con un menor costo computacional.
Descripción
Una tarea muy desafiante para el reconocimiento de acciones se refiere a cómo extraer y utilizar de manera efectiva la información temporal y espacial de un video (especialmente la información temporal). Hasta la fecha, muchos investigadores han propuesto diversas estructuras de convolución espacio-temporal. A pesar de su éxito, la mayoría de los modelos tienen limitaciones en cuanto a su rendimiento adicional, especialmente en aquellos conjuntos de datos altamente dependientes del tiempo debido a su incapacidad para identificar la relación de fusión entre las características espaciales y temporales dentro del canal de convolución. En este documento, propusimos un extractor espacial-temporal ligero y eficiente, denominado Bloque de Agregación Espacial-Temporal por Canal (bloque CSTA), que podría ser insertado de manera flexible en CNNs 2D existentes (denominado CSTANet). El Bloque CSTA utiliza dos ramas para modelar la información espacial-temporal por separado. En la rama temporal, está equipado con un Módulo de Atención al Movimiento (MA), que se utiliza para mejorar las regiones de movimiento en un video dado. Luego, introdujimos un módulo de Atención de Canal Espacio-Temporal (STCA), que podría agregar características espaciales-temporales de cada canal de bloque de manera autoadaptativa y entrenable. Los resultados experimentales finales demuestran que el CSTANet propuesto logró los mejores resultados en los conjuntos de datos EGTEA Gaze++ y Diving48, y obtuvo resultados competitivos en Something-Something V1&V2 con un menor costo computacional.