logo móvil
Contáctanos

Vw-sc3d: una red espacial-temporal basada en CNN 3D escasa con ponderación de vista para el reconocimiento de acciones basadas en esqueletos

Autores: Lin, Xiaotian; Xu, Leiyang; Zhuang, Songlin; Wang, Qiang

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Vw-sc3d: una red espacial-temporal basada en CNN 3D escasa con ponderación de vista para el reconocimiento de acciones basadas en esqueletos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de acciones humanas
Esqueleto
Redes convolucionales de grafos
Modelo espacio-temporal
Ponderación de vistas
CNN 3D

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones


Descripción
En los últimos años, el reconocimiento de acciones humanas ha recibido una atención creciente como una función significativa de la interacción humano-máquina. El esqueleto humano es una de las representaciones más efectivas de las acciones humanas porque es altamente compacto e informativo. Muchos de los métodos recientes de reconocimiento de acciones basados en esqueletos se basan en redes convolucionales de grafos (GCNs) ya que preservan la topología del esqueleto humano mientras extraen características. Aunque muchos de estos métodos dan resultados impresionantes, existen algunas limitaciones en cuanto a la robustez, interoperabilidad y escalabilidad. Además, la mayoría de estos métodos ignoran la información subyacente de la dirección de la vista y confían en que el modelo aprenda cómo ajustar la vista a partir de los datos de entrenamiento. En este trabajo, proponemos VW-SC3D, un modelo espacio-temporal con ponderación de vista para el reconocimiento de acciones basado en esqueletos. En resumen, nuestro modelo utiliza una CNN 3D dispersa para extraer características espaciales para cada fotograma y utiliza un codificador transformador para obtener información temporal dentro de los fotogramas. En comparación con los métodos basados en GCN, nuestro método tiene un mejor rendimiento en la extracción de características espacio-temporales y es más adaptable a diferentes tipos de datos de esqueleto 3D. La CNN 3D dispersa hace que nuestro modelo sea más eficiente computacionalmente y más flexible. Además, un módulo de ponderación de vista aprendible mejora la robustez del modelo propuesto contra cambios de punto de vista. Una prueba en dos tipos diferentes de conjuntos de datos muestra un resultado competitivo con los métodos SOTA, y el rendimiento es aún mejor en situaciones de cambio de vista.

Otros recursos que podrían interesarte

Temas Virtualpro