Vw-sc3d: una red espacial-temporal basada en CNN 3D escasa con ponderación de vista para el reconocimiento de acciones basadas en esqueletos
Autores: Lin, Xiaotian; Xu, Leiyang; Zhuang, Songlin; Wang, Qiang
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Vw-sc3d: una red espacial-temporal basada en CNN 3D escasa con ponderación de vista para el reconocimiento de acciones basadas en esqueletos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de acciones humanas
Esqueleto
Redes convolucionales de grafos
Modelo espacio-temporal
Ponderación de vistas
CNN 3D
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
En los últimos años, el reconocimiento de acciones humanas ha recibido una atención creciente como una función significativa de la interacción humano-máquina. El esqueleto humano es una de las representaciones más efectivas de las acciones humanas porque es altamente compacto e informativo. Muchos de los métodos recientes de reconocimiento de acciones basados en esqueletos se basan en redes convolucionales de grafos (GCNs) ya que preservan la topología del esqueleto humano mientras extraen características. Aunque muchos de estos métodos dan resultados impresionantes, existen algunas limitaciones en cuanto a la robustez, interoperabilidad y escalabilidad. Además, la mayoría de estos métodos ignoran la información subyacente de la dirección de la vista y confían en que el modelo aprenda cómo ajustar la vista a partir de los datos de entrenamiento. En este trabajo, proponemos VW-SC3D, un modelo espacio-temporal con ponderación de vista para el reconocimiento de acciones basado en esqueletos. En resumen, nuestro modelo utiliza una CNN 3D dispersa para extraer características espaciales para cada fotograma y utiliza un codificador transformador para obtener información temporal dentro de los fotogramas. En comparación con los métodos basados en GCN, nuestro método tiene un mejor rendimiento en la extracción de características espacio-temporales y es más adaptable a diferentes tipos de datos de esqueleto 3D. La CNN 3D dispersa hace que nuestro modelo sea más eficiente computacionalmente y más flexible. Además, un módulo de ponderación de vista aprendible mejora la robustez del modelo propuesto contra cambios de punto de vista. Una prueba en dos tipos diferentes de conjuntos de datos muestra un resultado competitivo con los métodos SOTA, y el rendimiento es aún mejor en situaciones de cambio de vista.
Descripción
En los últimos años, el reconocimiento de acciones humanas ha recibido una atención creciente como una función significativa de la interacción humano-máquina. El esqueleto humano es una de las representaciones más efectivas de las acciones humanas porque es altamente compacto e informativo. Muchos de los métodos recientes de reconocimiento de acciones basados en esqueletos se basan en redes convolucionales de grafos (GCNs) ya que preservan la topología del esqueleto humano mientras extraen características. Aunque muchos de estos métodos dan resultados impresionantes, existen algunas limitaciones en cuanto a la robustez, interoperabilidad y escalabilidad. Además, la mayoría de estos métodos ignoran la información subyacente de la dirección de la vista y confían en que el modelo aprenda cómo ajustar la vista a partir de los datos de entrenamiento. En este trabajo, proponemos VW-SC3D, un modelo espacio-temporal con ponderación de vista para el reconocimiento de acciones basado en esqueletos. En resumen, nuestro modelo utiliza una CNN 3D dispersa para extraer características espaciales para cada fotograma y utiliza un codificador transformador para obtener información temporal dentro de los fotogramas. En comparación con los métodos basados en GCN, nuestro método tiene un mejor rendimiento en la extracción de características espacio-temporales y es más adaptable a diferentes tipos de datos de esqueleto 3D. La CNN 3D dispersa hace que nuestro modelo sea más eficiente computacionalmente y más flexible. Además, un módulo de ponderación de vista aprendible mejora la robustez del modelo propuesto contra cambios de punto de vista. Una prueba en dos tipos diferentes de conjuntos de datos muestra un resultado competitivo con los métodos SOTA, y el rendimiento es aún mejor en situaciones de cambio de vista.