Una representación de múltiples características de secuencias de esqueletos para el reconocimiento de interacciones humanas
Autores: Wang, Xiaohang; Deng, Hongmin
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Una representación de múltiples características de secuencias de esqueletos para el reconocimiento de interacciones humanas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Redes neuronales recurrentes
Redes neuronales convolucionales
Mecanismo de atención
Reconocimiento de interacción humana
Transformación de coordenadas
Red integrada
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
Inspirado en las prometedoras actuaciones logradas por las redes neuronales recurrentes (RNN) y las redes neuronales convolucionales (CNN) en el reconocimiento de acciones basado en esqueletos, este artículo presenta una estructura de red profunda que combina tanto CNN para clasificación como RNN para lograr un mecanismo de atención para el reconocimiento de interacción humana. Específicamente, el módulo de atención en esta estructura se utiliza para dar varios niveles de atención a varios fotogramas con diferentes pesos, y se emplea CNN para extraer la información espacial y temporal de alto nivel de los datos del esqueleto. Estos dos módulos forman de manera fluida una arquitectura de red única. Además, para eliminar el impacto de diferentes ubicaciones y orientaciones, se realiza una transformación de coordenadas del sistema de coordenadas original al sistema de coordenadas centrado en el humano. Además, se extraen tres características diferentes de los datos del esqueleto como las entradas de tres subredes, respectivamente. Finalmente, estas subredes alimentadas con diferentes características se fusionan en una red integrada. El resultado experimental muestra la validez del enfoque propuesto en dos conjuntos de datos ampliamente utilizados de interacción humana.
Descripción
Inspirado en las prometedoras actuaciones logradas por las redes neuronales recurrentes (RNN) y las redes neuronales convolucionales (CNN) en el reconocimiento de acciones basado en esqueletos, este artículo presenta una estructura de red profunda que combina tanto CNN para clasificación como RNN para lograr un mecanismo de atención para el reconocimiento de interacción humana. Específicamente, el módulo de atención en esta estructura se utiliza para dar varios niveles de atención a varios fotogramas con diferentes pesos, y se emplea CNN para extraer la información espacial y temporal de alto nivel de los datos del esqueleto. Estos dos módulos forman de manera fluida una arquitectura de red única. Además, para eliminar el impacto de diferentes ubicaciones y orientaciones, se realiza una transformación de coordenadas del sistema de coordenadas original al sistema de coordenadas centrado en el humano. Además, se extraen tres características diferentes de los datos del esqueleto como las entradas de tres subredes, respectivamente. Finalmente, estas subredes alimentadas con diferentes características se fusionan en una red integrada. El resultado experimental muestra la validez del enfoque propuesto en dos conjuntos de datos ampliamente utilizados de interacción humana.