T-entrenado Multiescala Espacial Temporal Red Neuronal Convolucional de Grafos para el Reconocimiento de Acciones Esqueléticas Semisupervisado

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

T-entrenado Multiescala Espacial Temporal Red Neuronal Convolucional de Grafos para el Reconocimiento de Acciones Esqueléticas Semisupervisado

Autores: Gou, Ruru; Yang, Wenzhu; Luo, Zifei; Yuan, Yunfeng; Li, Andong

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

T-entrenado Multiescala Espacial Temporal Red Neuronal Convolucional de Grafos para el Reconocimiento de Acciones Esqueléticas Semisupervisado

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Redes convolucionales en grafos

Reconocimiento de acciones

Espacio-temporal

Aprendizaje semi-supervisado

Codificador

Decodificador

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones

En los últimos años, las redes convolucionales gráficas espacio-temporales han desempeñado un papel cada vez más importante en el reconocimiento de acciones humanas basado en esqueletos. Sin embargo, todavía existen tres limitaciones principales en la mayoría de los enfoques basados en ST-GCN: (1) Solo utilizan una escala conjunta para extraer características de acción, o procesan información conjunta y esquelética por separado. Como resultado, las características de acción no pueden ser extraídas dinámicamente a través de la direccionalidad mutua entre las escalas. (2) Estos modelos tratan las contribuciones de todas las articulaciones por igual en el entrenamiento, lo cual ignora el problema de que algunas articulaciones con una reducción de pérdida difícil son articulaciones críticas en el entrenamiento de la red. (3) Estas redes dependen en gran medida de una gran cantidad de datos etiquetados, lo cual sigue siendo costoso. Para abordar estos problemas, proponemos una red neuronal convolucional gráfica espacio-temporal multiscale T-trained para el reconocimiento de acciones semi-supervisado, que contiene tres partes: codificador, decodificador y clasificador. El núcleo del codificador es una red convolucional gráfica espacio-temporal de fusión correlacionada de articulación-hueso-parte del cuerpo que permite que la red aprenda características de acción más estables entre escalas gruesas y finas. El decodificador utiliza un método de entrenamiento auto-supervisado con una cabeza de predicción de movimiento, lo que permite a la red extraer características de acción utilizando datos no etiquetados para que la red pueda lograr el aprendizaje semi-supervisado. Además, la red también es capaz de aprendizaje completamente supervisado con el codificador, decodificador y clasificador. Nuestra estrategia propuesta de minería conjunta difícil en línea a nivel de tiempo también se utiliza en el proceso de entrenamiento del decodificador, lo que permite que la red se enfoque en las articulaciones de entrenamiento difíciles y mejore el rendimiento general de la red. Los resultados experimentales en el conjunto de datos NTU-RGB + D y en el conjunto de datos Kinetics-skeleton muestran que el modelo mejorado logra un buen rendimiento para el reconocimiento de acciones basado en el entrenamiento semi-supervisado, y también es aplicable al enfoque completamente supervisado.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro