Reconocimiento de acción de esqueleto basado en unidad temporal con compuerta y convolución de gráficos adaptativos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Reconocimiento de acción de esqueleto basado en unidad temporal con compuerta y convolución de gráficos adaptativos

Autores: Zhu, Qilin; Deng, Hongmin; Wang, Kaixuan

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Reconocimiento de acción de esqueleto basado en unidad temporal con compuerta y convolución de gráficos adaptativos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Progreso

Redes convolucionales de grafos

Modelado espacial

Dimensión temporal

Extracción de características

Parámetros del modelo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones

En los últimos años, se ha logrado un gran avance en el reconocimiento de comportamientos esqueléticos basados en redes convolucionales de grafos (GCNs). En la mayoría de los métodos existentes, sin embargo, se utilizan una matriz de adyacencia fija y una estructura de grafo fija para la extracción de características de datos esqueléticos en la dimensión espacial, lo que suele llevar a una débil capacidad de modelado espacial, un rendimiento de generalización insatisfactorio y un número excesivo de parámetros de modelo. La mayoría de estos métodos siguen el enfoque ST-GCN en la dimensión temporal, lo que inevitablemente conduce a un número de fotogramas no clave, aumentando el costo de extracción de características y haciendo que el modelo sea más lento en términos de extracción de características y la carga computacional requerida. En este artículo, se propone una red convolucional de grafos adaptativa temporal y espacialmente con compuertas. Por un lado, se agrega una matriz de parámetros aprendibles que puede aprender de forma adaptativa la información clave de los datos esqueléticos en la dimensión espacial a la capa de convolución de grafos, mejorando la extracción de características y la generalización del modelo, y reduciendo el número de parámetros. Por otro lado, se agrega una unidad con compuertas al módulo de extracción de características temporales para aliviar la interferencia de fotogramas no críticos y reducir la complejidad computacional. Se utilizan un mecanismo de atención de canal basado en un módulo SE y un mecanismo de atención de fotogramas para mejorar la capacidad de extracción de características del modelo. Para evitar la degradación del modelo y garantizar un entrenamiento más estable, se agregan enlaces residuales a cada módulo de extracción de características. El enfoque propuesto finalmente logró una precisión un 0,63% mayor en el benchmark X-Sub con 4,46 M menos parámetros que GAT, uno de los mejores métodos SOTA. La velocidad de inferencia de nuestro modelo alcanza hasta 86,23 secuencias/(segundo x GPU). Los extensos resultados experimentales validan aún más la efectividad de nuestro enfoque propuesto en tres conjuntos de datos a gran escala, a saber, NTU RGB+D 60, NTU RGB+D 120 y Kinetics Skeleton.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro