Reconocimiento de acciones manuales mejorado por correlación global basado en NST-GCN
Autores: Yang, Shiqiang; Li, Qi; He, Duo; Wang, Jinhua; Li, Dexin
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Reconocimiento de acciones manuales mejorado por correlación global basado en NST-GCN
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de acciones manuales
Información del esqueleto
Redes de convolución gráfica espacio-temporal
Convolución dilatada
Correlación manual
Características espacio-temporales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
El reconocimiento de acciones manuales es una parte importante de la monitorización inteligente, la interacción humano-computadora, la robótica y otros campos. Comparado con otros métodos, el método de reconocimiento de acciones manuales que utiliza información esquelética puede ignorar los efectos de error causados por un fondo complejo y cambios en la velocidad de movimiento, y el costo computacional es relativamente bajo. El modelo de redes de convolución gráfica espacio-temporal (ST-GCN) tiene un rendimiento excelente en el campo del reconocimiento de acciones basadas en esqueletos. Para resolver el problema de la articulación raíz y la articulación posterior que no están conectadas de cerca, lo que resulta en un efecto pobre de reconocimiento de acciones manuales, este documento utiliza primero la convolución dilatada para reemplazar la convolución estándar en la dimensión temporal. Esto es para procesar las características de series temporales del video de acción manual, lo que aumenta el campo receptivo en la dimensión temporal y mejora la conexión entre las características. Luego, mediante la adición de conexiones no físicas, se establece la conexión entre las articulaciones de la punta del dedo y la raíz del dedo, y se adopta una nueva estrategia de partición para fortalecer la correlación manual de la información de cada punto de articulación. Esto ayuda a mejorar la capacidad de la red para extraer las características espacio-temporales de la mano. El modelo mejorado se prueba en conjuntos de datos públicos y escenarios reales. Los resultados experimentales muestran que en comparación con el modelo original, los indicadores de evaluación de top-1 de 14 categorías y top-1 de 28 categorías del conjunto de datos han mejorado en un 4.82% y 6.96%, respectivamente. En la escena real, el efecto de reconocimiento de las categorías con grandes cambios en los movimientos de las manos es mejor, y los resultados de reconocimiento de las categorías con tendencias similares de movimientos de manos son pobres, por lo que aún hay margen de mejora.
Descripción
El reconocimiento de acciones manuales es una parte importante de la monitorización inteligente, la interacción humano-computadora, la robótica y otros campos. Comparado con otros métodos, el método de reconocimiento de acciones manuales que utiliza información esquelética puede ignorar los efectos de error causados por un fondo complejo y cambios en la velocidad de movimiento, y el costo computacional es relativamente bajo. El modelo de redes de convolución gráfica espacio-temporal (ST-GCN) tiene un rendimiento excelente en el campo del reconocimiento de acciones basadas en esqueletos. Para resolver el problema de la articulación raíz y la articulación posterior que no están conectadas de cerca, lo que resulta en un efecto pobre de reconocimiento de acciones manuales, este documento utiliza primero la convolución dilatada para reemplazar la convolución estándar en la dimensión temporal. Esto es para procesar las características de series temporales del video de acción manual, lo que aumenta el campo receptivo en la dimensión temporal y mejora la conexión entre las características. Luego, mediante la adición de conexiones no físicas, se establece la conexión entre las articulaciones de la punta del dedo y la raíz del dedo, y se adopta una nueva estrategia de partición para fortalecer la correlación manual de la información de cada punto de articulación. Esto ayuda a mejorar la capacidad de la red para extraer las características espacio-temporales de la mano. El modelo mejorado se prueba en conjuntos de datos públicos y escenarios reales. Los resultados experimentales muestran que en comparación con el modelo original, los indicadores de evaluación de top-1 de 14 categorías y top-1 de 28 categorías del conjunto de datos han mejorado en un 4.82% y 6.96%, respectivamente. En la escena real, el efecto de reconocimiento de las categorías con grandes cambios en los movimientos de las manos es mejor, y los resultados de reconocimiento de las categorías con tendencias similares de movimientos de manos son pobres, por lo que aún hay margen de mejora.