Vw-sc3d: una red espacial-temporal basada en CNN 3D escasa con ponderación de vista para el reconocimiento de acciones basadas en esqueletos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Vw-sc3d: una red espacial-temporal basada en CNN 3D escasa con ponderación de vista para el reconocimiento de acciones basadas en esqueletos

Autores: Lin, Xiaotian; Xu, Leiyang; Zhuang, Songlin; Wang, Qiang

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Vw-sc3d: una red espacial-temporal basada en CNN 3D escasa con ponderación de vista para el reconocimiento de acciones basadas en esqueletos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de acciones humanas

Esqueleto

Redes convolucionales de grafos

Modelo espacio-temporal

Ponderación de vistas

CNN 3D

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones

En los últimos años, el reconocimiento de acciones humanas ha recibido una atención creciente como una función significativa de la interacción humano-máquina. El esqueleto humano es una de las representaciones más efectivas de las acciones humanas porque es altamente compacto e informativo. Muchos de los métodos recientes de reconocimiento de acciones basados en esqueletos se basan en redes convolucionales de grafos (GCNs) ya que preservan la topología del esqueleto humano mientras extraen características. Aunque muchos de estos métodos dan resultados impresionantes, existen algunas limitaciones en cuanto a la robustez, interoperabilidad y escalabilidad. Además, la mayoría de estos métodos ignoran la información subyacente de la dirección de la vista y confían en que el modelo aprenda cómo ajustar la vista a partir de los datos de entrenamiento. En este trabajo, proponemos VW-SC3D, un modelo espacio-temporal con ponderación de vista para el reconocimiento de acciones basado en esqueletos. En resumen, nuestro modelo utiliza una CNN 3D dispersa para extraer características espaciales para cada fotograma y utiliza un codificador transformador para obtener información temporal dentro de los fotogramas. En comparación con los métodos basados en GCN, nuestro método tiene un mejor rendimiento en la extracción de características espacio-temporales y es más adaptable a diferentes tipos de datos de esqueleto 3D. La CNN 3D dispersa hace que nuestro modelo sea más eficiente computacionalmente y más flexible. Además, un módulo de ponderación de vista aprendible mejora la robustez del modelo propuesto contra cambios de punto de vista. Una prueba en dos tipos diferentes de conjuntos de datos muestra un resultado competitivo con los métodos SOTA, y el rendimiento es aún mejor en situaciones de cambio de vista.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro