Reconocimiento de acción de esqueleto basado en unidad temporal con compuerta y convolución de gráficos adaptativos
Autores: Zhu, Qilin; Deng, Hongmin; Wang, Kaixuan
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Reconocimiento de acción de esqueleto basado en unidad temporal con compuerta y convolución de gráficos adaptativos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Progreso
Redes convolucionales de grafos
Modelado espacial
Dimensión temporal
Extracción de características
Parámetros del modelo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
En los últimos años, se ha logrado un gran avance en el reconocimiento de comportamientos esqueléticos basados en redes convolucionales de grafos (GCNs). En la mayoría de los métodos existentes, sin embargo, se utilizan una matriz de adyacencia fija y una estructura de grafo fija para la extracción de características de datos esqueléticos en la dimensión espacial, lo que suele llevar a una débil capacidad de modelado espacial, un rendimiento de generalización insatisfactorio y un número excesivo de parámetros de modelo. La mayoría de estos métodos siguen el enfoque ST-GCN en la dimensión temporal, lo que inevitablemente conduce a un número de fotogramas no clave, aumentando el costo de extracción de características y haciendo que el modelo sea más lento en términos de extracción de características y la carga computacional requerida. En este artículo, se propone una red convolucional de grafos adaptativa temporal y espacialmente con compuertas. Por un lado, se agrega una matriz de parámetros aprendibles que puede aprender de forma adaptativa la información clave de los datos esqueléticos en la dimensión espacial a la capa de convolución de grafos, mejorando la extracción de características y la generalización del modelo, y reduciendo el número de parámetros. Por otro lado, se agrega una unidad con compuertas al módulo de extracción de características temporales para aliviar la interferencia de fotogramas no críticos y reducir la complejidad computacional. Se utilizan un mecanismo de atención de canal basado en un módulo SE y un mecanismo de atención de fotogramas para mejorar la capacidad de extracción de características del modelo. Para evitar la degradación del modelo y garantizar un entrenamiento más estable, se agregan enlaces residuales a cada módulo de extracción de características. El enfoque propuesto finalmente logró una precisión un 0,63% mayor en el benchmark X-Sub con 4,46 M menos parámetros que GAT, uno de los mejores métodos SOTA. La velocidad de inferencia de nuestro modelo alcanza hasta 86,23 secuencias/(segundo x GPU). Los extensos resultados experimentales validan aún más la efectividad de nuestro enfoque propuesto en tres conjuntos de datos a gran escala, a saber, NTU RGB+D 60, NTU RGB+D 120 y Kinetics Skeleton.
Descripción
En los últimos años, se ha logrado un gran avance en el reconocimiento de comportamientos esqueléticos basados en redes convolucionales de grafos (GCNs). En la mayoría de los métodos existentes, sin embargo, se utilizan una matriz de adyacencia fija y una estructura de grafo fija para la extracción de características de datos esqueléticos en la dimensión espacial, lo que suele llevar a una débil capacidad de modelado espacial, un rendimiento de generalización insatisfactorio y un número excesivo de parámetros de modelo. La mayoría de estos métodos siguen el enfoque ST-GCN en la dimensión temporal, lo que inevitablemente conduce a un número de fotogramas no clave, aumentando el costo de extracción de características y haciendo que el modelo sea más lento en términos de extracción de características y la carga computacional requerida. En este artículo, se propone una red convolucional de grafos adaptativa temporal y espacialmente con compuertas. Por un lado, se agrega una matriz de parámetros aprendibles que puede aprender de forma adaptativa la información clave de los datos esqueléticos en la dimensión espacial a la capa de convolución de grafos, mejorando la extracción de características y la generalización del modelo, y reduciendo el número de parámetros. Por otro lado, se agrega una unidad con compuertas al módulo de extracción de características temporales para aliviar la interferencia de fotogramas no críticos y reducir la complejidad computacional. Se utilizan un mecanismo de atención de canal basado en un módulo SE y un mecanismo de atención de fotogramas para mejorar la capacidad de extracción de características del modelo. Para evitar la degradación del modelo y garantizar un entrenamiento más estable, se agregan enlaces residuales a cada módulo de extracción de características. El enfoque propuesto finalmente logró una precisión un 0,63% mayor en el benchmark X-Sub con 4,46 M menos parámetros que GAT, uno de los mejores métodos SOTA. La velocidad de inferencia de nuestro modelo alcanza hasta 86,23 secuencias/(segundo x GPU). Los extensos resultados experimentales validan aún más la efectividad de nuestro enfoque propuesto en tres conjuntos de datos a gran escala, a saber, NTU RGB+D 60, NTU RGB+D 120 y Kinetics Skeleton.