T-entrenado Multiescala Espacial Temporal Red Neuronal Convolucional de Grafos para el Reconocimiento de Acciones Esqueléticas Semisupervisado
Autores: Gou, Ruru; Yang, Wenzhu; Luo, Zifei; Yuan, Yunfeng; Li, Andong
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
T-entrenado Multiescala Espacial Temporal Red Neuronal Convolucional de Grafos para el Reconocimiento de Acciones Esqueléticas Semisupervisado
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Redes convolucionales en grafos
Reconocimiento de acciones
Espacio-temporal
Aprendizaje semi-supervisado
Codificador
Decodificador
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
En los últimos años, las redes convolucionales gráficas espacio-temporales han desempeñado un papel cada vez más importante en el reconocimiento de acciones humanas basado en esqueletos. Sin embargo, todavía existen tres limitaciones principales en la mayoría de los enfoques basados en ST-GCN: (1) Solo utilizan una escala conjunta para extraer características de acción, o procesan información conjunta y esquelética por separado. Como resultado, las características de acción no pueden ser extraídas dinámicamente a través de la direccionalidad mutua entre las escalas. (2) Estos modelos tratan las contribuciones de todas las articulaciones por igual en el entrenamiento, lo cual ignora el problema de que algunas articulaciones con una reducción de pérdida difícil son articulaciones críticas en el entrenamiento de la red. (3) Estas redes dependen en gran medida de una gran cantidad de datos etiquetados, lo cual sigue siendo costoso. Para abordar estos problemas, proponemos una red neuronal convolucional gráfica espacio-temporal multiscale T-trained para el reconocimiento de acciones semi-supervisado, que contiene tres partes: codificador, decodificador y clasificador. El núcleo del codificador es una red convolucional gráfica espacio-temporal de fusión correlacionada de articulación-hueso-parte del cuerpo que permite que la red aprenda características de acción más estables entre escalas gruesas y finas. El decodificador utiliza un método de entrenamiento auto-supervisado con una cabeza de predicción de movimiento, lo que permite a la red extraer características de acción utilizando datos no etiquetados para que la red pueda lograr el aprendizaje semi-supervisado. Además, la red también es capaz de aprendizaje completamente supervisado con el codificador, decodificador y clasificador. Nuestra estrategia propuesta de minería conjunta difícil en línea a nivel de tiempo también se utiliza en el proceso de entrenamiento del decodificador, lo que permite que la red se enfoque en las articulaciones de entrenamiento difíciles y mejore el rendimiento general de la red. Los resultados experimentales en el conjunto de datos NTU-RGB + D y en el conjunto de datos Kinetics-skeleton muestran que el modelo mejorado logra un buen rendimiento para el reconocimiento de acciones basado en el entrenamiento semi-supervisado, y también es aplicable al enfoque completamente supervisado.
Descripción
En los últimos años, las redes convolucionales gráficas espacio-temporales han desempeñado un papel cada vez más importante en el reconocimiento de acciones humanas basado en esqueletos. Sin embargo, todavía existen tres limitaciones principales en la mayoría de los enfoques basados en ST-GCN: (1) Solo utilizan una escala conjunta para extraer características de acción, o procesan información conjunta y esquelética por separado. Como resultado, las características de acción no pueden ser extraídas dinámicamente a través de la direccionalidad mutua entre las escalas. (2) Estos modelos tratan las contribuciones de todas las articulaciones por igual en el entrenamiento, lo cual ignora el problema de que algunas articulaciones con una reducción de pérdida difícil son articulaciones críticas en el entrenamiento de la red. (3) Estas redes dependen en gran medida de una gran cantidad de datos etiquetados, lo cual sigue siendo costoso. Para abordar estos problemas, proponemos una red neuronal convolucional gráfica espacio-temporal multiscale T-trained para el reconocimiento de acciones semi-supervisado, que contiene tres partes: codificador, decodificador y clasificador. El núcleo del codificador es una red convolucional gráfica espacio-temporal de fusión correlacionada de articulación-hueso-parte del cuerpo que permite que la red aprenda características de acción más estables entre escalas gruesas y finas. El decodificador utiliza un método de entrenamiento auto-supervisado con una cabeza de predicción de movimiento, lo que permite a la red extraer características de acción utilizando datos no etiquetados para que la red pueda lograr el aprendizaje semi-supervisado. Además, la red también es capaz de aprendizaje completamente supervisado con el codificador, decodificador y clasificador. Nuestra estrategia propuesta de minería conjunta difícil en línea a nivel de tiempo también se utiliza en el proceso de entrenamiento del decodificador, lo que permite que la red se enfoque en las articulaciones de entrenamiento difíciles y mejore el rendimiento general de la red. Los resultados experimentales en el conjunto de datos NTU-RGB + D y en el conjunto de datos Kinetics-skeleton muestran que el modelo mejorado logra un buen rendimiento para el reconocimiento de acciones basado en el entrenamiento semi-supervisado, y también es aplicable al enfoque completamente supervisado.